ПословамАртураЧикколо (ArthurCiccolo), главыотделенияпоисковыхтехнологийIBMResearch, ведущиемассовыепоисковыемашины (Google, Yahoo! иMicrosoft) ориентированынаоткрытыйсегментИнтернета, анена поискслужебнойинформации. Вотличиеот них, IBMнамеренапредоставитьсторонним разработчикампрограммногообеспечения оригинальнуюархитектурууправлениянеструктурированнойинформациейUIMA (UnstructuredInformationManagementArchitecture). Этатехнологияпозволяетанализироватьсодержащийсявдокументахтексти распознаватьскрытыевнемпонятия, отношенияифакты. ТакжеIBMпредлагаетинструмент WebSphereOmniFind, позволяющий пользователям осуществлять поиск в неструктурированных данных различных форматов и на различных языках, содержащихся в базах данных, в файлах электронной почты, в аудиозаписях, изображениях и видеофрагментах. К тому же UIMA позволит интегрировать ПО для поиска, управления экспертными системами и анализа текста от разных производителей.
Представители компании IBM утверждают, что UIMA упростит совместную работу тех приложений от различных разработчиков, которые предназначены для управления знаниями, поиска, коммерческой разведки (прим. – конкурентной разведки) и анализа текстов. Данный механизм поиска корпоративных данных разрабатывался IBMResearch на протяжении более четырех лет при участии ученых крупнейших университетов США и при поддержке Управления перспективных исследований Минобороны США (DARPA). В числе участников разработки UIMA — военные подрядчики ScienceApplicationsInternational, BBN Technologies и MITRE, а также медицинская фирма TheMayoClinic.
Сегодня 15 компаний уже планируют использовать данную технологию, в частности Attensity,ClearForest, Cognos, Endeca, Factiva, Капа, Inquire,iPhrase, Inxight, nStein, QL2, SAS, Schemalogic, Semagix, SPSS и Temis. Один из примеров применения новой технологии — совместное использование программных продуктов Attensity, ClearForest, iPhrase, Капа и IBM производителями потребительских товаров для обнаружения в сети жалоб покупателей на дефектные изделия и для поиска внутренней корпоративной информации, помогающей максимально быстро решить возникшие проблемы.
Около десяти лет назад ряд разработчиков СУБД, включая Informix, которая затем была приобретена IBM, заявили о том, что в скором времени проблема неструктурированных данных будет решена. Тем не менее и сейчас, по оценке аналитиков, до 85% корпоративных данных хранится в неструктурированном виде вне баз данных.
Ожидается, что технология UIMA начиная с конца текущего года будет распространяться с помощью сайта SourceForge, на котором размещается ПО с открытым исходным кодом. Структуру UIMA уже можно бесплатно загрузить с сайта IBMAlphaWorks.
В случае успеха проекта компания IBM готова после годичного использования перепродать данную технологию Google и Yahoo!.
Медиапоиск
В последнее время распространение неструктурированной информации в Сети в виде документов, изображений, комментариев и примечаний, сообщений электронной почты, а также видео- и аудиофайлов происходит взрывными темпами, поэтому для анализа данных необходимы специальные инструменты, которые в настоящее время отсутствуют в традиционных поисковых машинах. В связи с этим лидеры Интернет-поиска — Google, Yahoo! и Microsoft — ведут неустанную борьбу за расширение сферы поиска, совершенствуя поисковые технологии и разрабатывая новые поисковые сервисы.
Так, Web-портал Yahoo! сообщил о своих планах по созданию нового механизма поиска видеоматериалов в Интернете, который позволит удовлетворить растущий спрос на онлайновые мультимедийные развлечения. Yahoo! разрабатывает специальную службу, которая даст возможность искать в Сети видеоклипы столь же результативно, как сегодня происходит поиск текстовой и графической информации. Бета-версия продукта, уже доступная широкой публике на страничке разработчиков Next.yahoo.com, способна выполнять поиск видеофайлов в формате WindowsMedia, AppleQuickTime и RealMedia.
Другие компании, сделавшие поиск информации своей специализацией, также работают над созданием подобных сервисов. Google уже записывает и индексирует телепрограммы, чтобы в дальнейшем сделать возможным их онлайновый поиск, занимается оцифровкой литературы, библиотечных книжных архивов. Microsoft тоже разрабатывает платформу для поиска через Интернет видеофайлов и телепрограмм. AmericaOnline недавно обновила свою мультимедийную поисковую систему Singingfish, добавив туда функцию поиска видео на своем главном сайте. В решении задачи видеопоиска Yahoo! сотрудничает с порталом AtomFilms, имеющим огромный видеоархив — от мультфильмов до сериалов.
Сегодня видеопоиск весьма актуален, поскольку многие имеют современные компьютеры и высокоскоростной доступ в Интернет дома и на работе — а это практически все, что необходимо для просмотра видеофильмов или телепрограмм через Всемирную сеть. Стоимость создания, хостинга и транспортировки видеоинформации по Интернету значительно снизилась, сделав мультимедийные Интернет-технологии более доступными. Сеть развивается, превращаясь в развлекательную платформу для телевидения, появляются новые устройства, объединяющие функции персонального компьютера и телевизора, так что многих сегодня весьма интересует возможность поиска видеоинформации независимо от способа ее распространения — через платные кабельные каналы или широковещательную сеть.
Для операторов, предоставляющих сервис поиска видео, новый рынок услуг весьма привлекателен, и не только из-за возможности удовлетворить мультимедийные потребности клиентов. Такой сервис поможет эффективнее взаимодействовать с компаниями, которые занимаются рекламой и тратят на нее 60 млрд. долл. ежегодно. Основные рекламодатели, работающие сегодня с телевидением, готовы использовать новые рекламные площадки в сети Интернет. Поэтому Yahoo!, Google и другие поисковые системы стараются наладить хорошие отношения с Голливудом, установить деловые контакты, которые станут основой для взаимовыгодного сотрудничества в области видеорекламы, распространения и продажи видеопродукции.
Кроме делового партнерства с магнатами видео- и киноиндустрии, Yahoo! внедряет новые технологии при создании своей системы видеопоиска. Компания разрабатывает новый медиастандарт ReallySimpleSyndication (RSS) Media, над которым работает совместно с CreativeCommons, BroadbandMechanics, AtomFilms и др. Новая система, построенная на этом стандарте, позволит добавлять текстовую информацию или метатэги в медиафайлы, размещенные на Web-сайтах.
Эти данные могут использоваться поисковой системой для индексации и соответственно поиска видеофайлов. Указанный стандарт должен помочь решить проблему поисковой индексации таких файлов, которые содержат мало текстовой информации или не содержат ее вовсе. Yahoo! создает технологию, позволяющую извлекать для поиска текстовую информацию из заголовков и других данных, связанных с видеофайлом, а в дальнейшем планирует задействовать технологии распознавания речи для расширения возможностей поиска.
Для компаний, подобных AtomFilms, новый поисковый сервис означает увеличение трафика, а следовательно, дополнительные поступления средств от рекламы. Компания занимается продажей рекламы, которая демонстрируется при загрузке видеофайлов с ее сайта и стоит от 20 до 35 долл. за 2 тыс. показов — почти в пять раз дороже обычной баннерной рекламы. Это огромные деньги, если учесть, что, согласно последним финансовым отчетам Google и Yahoo!, у крупнейших Интернет-компаний дела и так идут лучше, чем прежде. Существенному росту прибылей оба поисковых гиганта обязаны именно увеличившимся объемам рекламы, а все финансовые показатели компаний превзошли прогнозы аналитиков.
Доход Google в I квартале, завершившемся 31 марта, вырос на 93% и составил 1,256 млрд. долл. Чистая прибыль Google в том же квартале увеличилась в 6 раз —до 369 млн. долл. (в сравнении с 64 млн. долл. в прошлом году).
Компания Yahoo! за I квартал финансового 2005 года получила рост объема продаж на 55%, или 1,174 млрд. долл. (против 758 долл. в аналогичном периоде годом ранее). Чистая прибыль Yahoo! достигла 205 млн. долл. (в I квартале 2004 года этот показатель равнялся 101 млн. долл.), а во II квартале компания увеличила прибыль еще на 8%.