Экономический еженедельник "Коммерсантъ-Деньги" № 41(546) от 17.10.2005г.
Мощные автоматизированные системы, обрабатывающие огромные массивы текстовой информации, сегодня доступны не только государственным структурам, но и практически любой частной компании и даже частным лицам. Компьютер анализирует, сопоставляет тексты и в течение секунд выдает рекомендации и прогнозы. Учитывая такие возможности, профильный бизнес обречен на бурное развитие.
Эшелон с Запада
Самым масштабным проектом обработки массивов данных (из тех, что широко известны) считается "Эшелон", разработанный еще во времена холодной войны по заказу американских спецслужб. Грубо говоря, эта система обрабатывает информацию, полученную путем прослушивания телефонных переговоров, отслеживает сведения о банковских транзакциях, о приобретении авиабилетов и т. д. И на выходе выдает справку с исчерпывающими сведениями об интересующем объекте. "Эшелон" разрабатывался как средство борьбы с террористами, криминалом, однако скандально прославился как средство промышленного шпионажа в пользу американских компаний. По некоторым данным "Эшелон" "привез" европейцам $15 млрд упущенной выгоды -- тут и сорванные контракты, и "слитая" конкурентам коммерческая информация...
Сегодня американские, да уже и европейские фирмы предлагают новую консалтинговую услугу -- сбор информации в интернете и ее анализ (тоже своего рода шпионаж). По оценкам экспертов, мировой оборот этого бизнеса достигает $100 млрд в год. Один из самых крупных поставщиков разнообразной информации (право, промышленное производство, финансы и т. д.) -- американская компания Lexis-Nexis, ее архивы насчитывают миллиарды документов. Впрочем, информации по России у Lexis-Nexis не так уж и много. Фактически услугами компании пользуются только те российские потребители, которым необходимо копаться в западных базах данных.
В России электронные библиотеки появились в середине 90-х годов. Одними из первых этим бизнесом занялись агентство "Пост-фактум", которое в начале 90-х возглавлял Глеб Павловский, и ИД "Коммерсантъ" (проект национальной электронной библиотеки).
Отечественный производитель
Сергей Король: "Прибыльность нашего бизнеса невелика -- всего 2-3%. Обороты -- что-то около $1 млн в год. Весь же рынок электронных баз данных СМИ я бы оценил где-то в $5 млн"
Качество предлагаемых операторами рынка услуг зависит от наполнения баз данных (его можно измерять количеством используемых источников, сообщений, гигабайтами и пр.) и свойств программного продукта, позволяющего получить ответ на поставленный вопрос. Сама программа без контента -- ничто, но и базы данных без программного продукта -- это просто глухие массивы информации, темный лес.
Самыми известными в России поставщиками информации из открытых источников (в первую очередь СМИ) являются компании Integrum, "Медиалогия", Factiva, Securities и "Вербин и партнеры". Однако только "Медиалогия" и "Вербин и партнеры" позиционируют свой программный продукт как изначально заточенный под обработку и анализ массивов данных, полученных из СМИ. Система "Медиалогия" (компания принадлежит фирме IBS, которая вложила в разработку системы около $10 млн) автоматически принимает и обрабатывает более 14 тыс. документов в день. Причем она была разработана вовсе не для анализа публикаций в прессе, а предназначалась "для обработки данных в центрах моделирования и прогнозирования ситуации". Но текстовые массивы принципиально не отличаются друг от друга, поэтому применение программе нашлось и в сфере мониторинга СМИ. Система "Медиалогия" позволяет быстро анализировать огромные объемы материалов СМИ, а именно выявлять тенденции и аномалии (рост/падение благожелательности, перемещения в рейтингах), сторонников и противников среди СМИ и авторов, связи объектов (кто чем владеет или что собирается купить, кто с кем дружит или конфликтует, кто кому поставляет товары и услуги). И, наконец, программа позволяет определить соотношение позитивных и негативных сообщений о том или ином объекте в прессе.
Нина Григорьева, гендиректор компании "Медиалогия": Для оценки влияния СМИ на репутацию используется большое количество параметров -- основными можно назвать, кроме уровня упоминаемости, влиятельность СМИ и отношение автора к объекту. Важны также роль в сообщении, наличие прямой речи, фотографий, объем текста, конфликтность сообщения. Одна из самых сложных задач для анализа -- окружение объекта, то есть его связи с другими объектами (в частности, информация о конфликтах, имущественных связях). Все эти параметры учитываются системой, причем их определение входит в технологическую цепочку обработки данных при поступлении в систему. А дальше пользователь уже имеет дело с предобработанной информацией. Собственно, это и позволяет получать по запросу уже систематизированную информацию буквально за десятки секунд.
"Медиалогия" является полуавтоматической системой: около полутора сотен операторов в городе Дубна сидят и проверяют -- не ошибся ли компьютер, посчитав заметку "позитивной" или "негативной". Клиент же (системой "Медиалогия" пользуются "Северсталь", "Вимм-Билль-Данн", ВТБ, "Уралсиб", "Базовый элемент", "Аэрофлот", российские представительства Microsoft и IBM и др.) получает уже готовую к употреблению информацию.
Надо сказать, что полуавтоматическое определение "позитива" и "негатива" в СМИ с привлечением "ручного труда" вскоре, видимо, станет анахронизмом. По крайней мере в компании "Вербин и партнеры" категорически заявили, что компьютерная программа способна идентифицировать эмоциональную окраску источника и без помощи человека, причем не только в "черно-белом" варианте. Это агентство занимается не столько продажей своей базы данных (она относительно невелика -- около 500 источников), сколько тем, что можно назвать предварительной аналитикой -- используя свой программный продукт.
Евгений Вербин, гендиректор фирмы "Вербин и партнеры": Если какой-либо процесс, к примеру кризис в банке, можно описать словесно, то наша программа может работать с этим массивом информации. У нас есть понятие "мера схожести". То есть мы берем уже имевший когда-то место кризис или несколько кризисов и сравниваем их с тем, что имеет место сейчас. Сравнение происходит автоматически на уровне текстов, сравнивается язык публикаций тогда и сейчас. Этот процесс чем-то напоминает контент-анализ, только он несколько сложнее. А окончательный вывод по ситуации делает уже сам аналитик, поставивший перед нами тот или иной вопрос. В итоге программа не только анализирует ситуацию, но и делает прогноз по ее развитию -- как правило, очень точный.
Программа математика Вербина, так же как и система "Медиалогия", пока не имеет аналогов в мире. Типизация различных моделей поведения и развития, автоматическое сравнение с ними вновь возникающих ситуаций -- это его ноу-хау. Представьте себе -- компьютер "читает" (или просчитывает) написанные русским, английским языком тексты из доступных источников, каким-то образом описывающие те или иные ситуации, сопоставляет и дает актуальный прогноз.
Подобные системы позволяют выполнять на порядок более сложные операции с текстом, нежели обычные поисковые серверы вроде Google или Yandex. Тем не менее очевидно, что основная масса пользователей пользуется все же не услугами электронных баз данных, а именно этими серверами. А многие крупные компании подписываются на услуги таких систем и электронных библиотек как на газеты.
Валерий Бардин, директор по развитию информационного агентства Integrum: Компьютерная обработка текста находится еще в самом начале своей эволюции, поэтому программные продукты пока не идеальны. Но уже сегодня для того, чтобы сохранить террабит информации, нужно потратить на покупку необходимого компьютера не более $3 тыс., то есть проблема хранения больших массивов информации решается, они становятся все более доступными. Стоимость хранения информации становится все менее значимой по отношению к системам ее анализа. Проблема же российского рынка заключается в том, что на нем нет битвы между операторами, программный продукт недостаточно востребован. Это связано в том числе и с упрощением выборной ситуации в стране. Ведь кто потребляет эти программы? PR-агентства в первую очередь и руководители компаний, которым захотелось провести PR-аудит или попросту проверить эффективность работы PR-службы.
Эффективность проведенной PR-кампании можно оценить, сравнив при помощи упомянутых программ фон публикаций в прессе до начала этой кампании и после ее завершения. Если ничего не изменилось или фон ухудшился, то деньги были потрачены напрасно.
Некоторые специалисты считают, что получение из одного массива информации другого, не менее загадочного (в виде графиков и диаграмм, выданных после компьютерной обработки), к тому же плохо поддающегося интерпретации, имеет скорее психологический, нежели информативный эффект. То есть они полагают, что решающее значение имеет вовсе не программное обеспечение.
Михаил Лукин, директор информационного центра ИД "Коммерсантъ": Если задавать различные параметры поиска информационной системе, то можно сделать немало действительно интересных выводов. Скажем, если сортировать статьи по авторам публикаций, то сразу видно, что этому автору, к примеру, деньги несет Госстрах, а тот работает на "Газпром" или РАО ЕЭС. Можно, пользуясь этим инструментарием, оценивать и эффективность PR-кампаний. Но главное достоинство базы данных пока все же не программная оболочка, а количество и качество источников информации, наполнение этой базы. Типичные программные продукты не слишком отличаются друг от друга.
Базовый принцип
Компания Integrum, принадлежащая инвестиционной группе "Атон", подает себя прежде всего как хранилище разнообразной информации, а уже потом как владельца уникального программного продукта. В библиотеке Integrum содержится около 500 млн документов, большая их часть -- материалы СМИ. Помимо данных из прессы компания аккумулировала информацию от бирж, сыскных агентств, в библиотеке есть базы данных Роспатента, сведения о физических лицах, компаниях и даже литературная классика. Программный продукт агентства Integrum, информационно-поисковая система "Артефакт", придуман без особых затей и рассчитан скорее на оперативное получение исходной информации, чем на ее серьезную последующую обработку. Хотя, к примеру, отслеживать цитируемость персон или компаний вполне можно, используя и эту систему.
В России активно работают еще два информационных агентства, у которых база данных по большей части представляет собой сборник публикаций и которые не озадачиваются особо какими-то сверхсложными программными действиями по отношению к тексту.
Компания Factiva (совместный проект Dow Jones и Reuters, крупнейший игрок на мировом рынке систем анализа информации), открытая шесть лет назад, подает себя как поставщика качественной, проверенной информации, необходимой сырьевикам и операторам финансового рынка. На маркетинговые отделы, PR-агентства и службы общественных связей она ориентирована в меньшей степени, нежели, скажем, "Медиалогия". Конкуренты Factiva говорят, что ее база данных по России относительно невелика и что большая часть ее клиентов -- иностранные, а не российские компании.
Евгений Агратин, директор службы информационного обеспечения агентства Integrum: Мы не конкурируем напрямую с этой компанией, так как у нее, насколько я понимаю, несколько сотен источников информации из России, а у нас -- около 6 тыс. Еще ни один наш потенциальный клиент не сказал, что он пользуется услугами Factiva и по этой причине не будет с нами сотрудничать.
Впрочем, Ирина Балакина, руководитель департамента корпоративных служб агентства Reuters и координатор Factiva, полагает, что ограниченное количество российских источников в базе -- это результат осознанной политики одного из крупнейших в мире информационных агентств: Мы не публикуем желтую, непроверенную информацию, только факты. Наша информация -- СМИ, аналитические отчеты, котировки -- имеет отношение только к бизнесу, она регулярно обновляется и в ней нет повторов, как это часто имеет место в российских информационных агентствах. И что такое 200 наших источников по России? Вот у нас есть договор с ИА "Регион-Информ", которое поставляет нам около 300 экземпляров региональной российской прессы. А ведь это агентство можно считать одним источником.
Некоторые российские эксперты считают, что компания Securities, вышедшая на российский рынок в 1996 году, когда ей было всего два года, тоже в значительной степени ориентирована на иностранного клиента. Кстати, Сергей Король, директор по развитию информационного продукта компании Securities в России и СНГ, этого и не скрывает. По его данным, где-то две трети клиентской базы российского филиала компании -- это иностранцы. Российский проект Securities, контрольный пакет которой не так давно выкупила Euromoney Institutional Investor Company, задумывался как венчурный и лишь в 2002 году перестал быть убыточным.
Сергей Король: Мы позиционируем себя как компанию, которая выдает инвесторам информацию по развивающимся рынкам "изнутри". Прибыльность нашего бизнеса невелика -- всего 2-3%. Обороты -- около $1 млн в год. Весь же российский рынок электронных баз данных СМИ я бы оценил где-то в $5 млн.
Интересно, что и остальные операторы рынка оценивают собственные обороты в сопоставимых цифрах. А вот оценки всего рынка расходятся. К примеру, Ирина Балакина полагает, что на нем вращается около $25 млн. Видимо, такой разнобой обусловлен тем, что на рынке помимо упомянутых компаний работают еще и РБК, "Интерфакс", а также другие агентства, использующие соответствующий инструментарий для обработки массивов информации.
Интересно также и то, что электронные библиотеки базируются исключительно в Москве; их владельцы полагают, что российские регионы "еще не доросли" до этого бизнеса, а самые крупные региональные компании в любом случае имеют в столице офисы и, соответственно, возможность связаться с библиотеками напрямую.
Стоимость предоставления электронных баз данных и программного продукта такова, что мелкая или даже средняя провинциальная фирма вряд ли заинтересуется подобным сервисом. К примеру, "Вербин и партнеры " свою программную оболочку оценивает в $5 тыс. (столько должен заплатить клиент за право ею пользоваться), еще в $3 тыс. обойдется база данных плюс $500-1000 -- ежемесячная абонентская плата. Впрочем, строгих тарифов нет ни у одной из компаний, предлагающих свой программный продукт и базу данных, индивидуальный подход доминирует. Договор о сотрудничестве с информационным агентством клиент обычно заключает на год, а платит помесячно. Понятно, что размер абонентской платы зависит от количества рабочих мест, подключаемых к системе агентства. По данным сотрудников "Медиалогии", компания с параллельным доступом к информационному ресурсу с нескольких мест "наговаривает" за месяц где-то на $3 тыс. Одно подключенное место обходится примерно в $1 тыс.
В Integrum помимо абонентской платы ($90-1200 в зависимости о потребностей заказчика) с клиента берут еще и за каждый "клик" по интересующему его материалу. 1 кБ информации стоит 12 центов, следовательно, пространная статья может обойтись клиенту и в $10. Для удобства над каждым запрашиваемым в сети документом нарисован кошелек, на котором указана его, документа, стоимость. Базовая абонентская плата в Securities -- $500 в месяц, сумма варьируется в зависимости от запросов клиента.
Все упомянутые информационные агентства декларируют, что работают только с открытой, законно полученной информацией; подчеркивается также, что со всеми СМИ, наполняющими базы данных, заключены договоры, и эти СМИ по мере обращения к их материалам пользователей либо получают роялти, либо удовлетворяются бартером. То есть никаких баз ГТК, ГИБДД, МНС, продающихся сегодня на каждом углу по цене 1 тыс. руб. за CD, в электронных библиотеках нет.
Однако в открытых источниках можно найти далеко не всю необходимую коммерсанту или политику информацию. А это означает, что закрытые данные могут стать дополнительным преимуществом в конкурентной борьбе на рынке доступа к электронным библиотекам. Понятно ведь, что программным продуктам все равно, с какой информацией работать -- открытой или закрытой. Сегодня операторы рынка заявляют, что конкуренции на нем нет, и каждый пасет своего клиента, но уже в обозримом будущем на рынке наверняка появятся самые интригующие предложения. При этом очевидно, что "фишкой" будет не столько богатый свод информации, сколько ее специфическая обработка.
Российские разработчики систем анализа СМИ уверяют, что их продукт не имеет аналогов на Западе. Так что не исключено, что профильные западные компании будут использовать российские разработки -- кстати, переговоры на этот счет уже ведутся.