Технологии Convera Компания "Convera Technologies International Ltd." (ранее Excalibur) - http://www.convera.com/ (http://www.convera.ru/ru/about/) - по данным отчетов Гартнер Груп уже много лет является мировым лидером в области разработки технологий поиска информации и извлечения знаний из текстов и мультимедийных данных любой природы (графические и видео изображения, звук сохраненных в файлах практически всех известных форматов).
В соответствии с характером обрабатываемых источников данных, программные продукты Convera имеют следующее назначение:
Для управления знаниями, представленными в текстовом виде компания Convera предлагает программный продукт RetrievalWare (RW) c набором дополнительных сервисных программ. Семейство продуктов RW обеспечивает поиск, анализ и выделение информации посредством задания пользователем поисковых запросов на естественном языке к информации, хранящейся как в неструктурированном виде так и формализованных базах данных, расположенной как в локальной сети организации так и в сети Internet.
Основные преимущества RW перед программными продуктами аналогичного назначения заключаются в следующем:
1. В RW реализована уникальная технология "нечеткого" поиска, позволяющая находить информацию не на основе точного совпадения запроса с данными, а на степени похожести запроса, с содержимым в источниках информации, что позволяет:
при проведении ретроконверсии бумажных документов отпадает необходимость правки документов после распознавания текста, что в свою очередь позволяет перевести объемные архивы бумажных документов в электронный вид за обозримый срок (до нескольких тысяч машинописных листов в день с одного рабочего места) и за разумные инвестиции (так стоимость правки одной страницы в России около 50 центов);
находить информацию, введенную с опечатками;
находить информацию, когда не знаешь точно, что ты ищешь, например нет уверенности в написании запроса (редкое слово - "реборда" или "риборда).
2. В RW реализована возможность ассоциативного поиска на основе семантической сети. При этом можно использовать несколько семантических сетей одновременно, например сеть на основе общей лексики русского языка и сеть понятий, используемых в приборостроении. Каждый пользователь может с легкостью создавать свои собственные семантические сети в дополнение к общим.
В семантической сети RW имеется возможность определения вида семантической связи для понятий, например, слова синонимы или антонимы, слова связанные отношением "род-вид" и т.п. Данное свойство обеспечивает высокую точность извлечения информации и позволяет автоматически находить документы (или записи в БД) не только по терминам заданным в запросе, но и по другим терминам, связанным по смыслу с заданным.
Развитый механизм оценки релевантности найденных документов позволят пользователю создавать запросы на естественном языке.
3. RW имеет возможность включать в единое поисковое пространство как информацию, хранимую в файловой системе, так и СУБД (Oracle, MS SQL, Sybase, Informix, Teradata, ODBC DBS), почтовых и корпоративных системах (MS Exchange, Lotus) и системах документооборота (StaffWare, Documentum, FileNet Panagon). С помощью RW можно организовывать доступ и индексировать удаленные хранилища данных. Это свойство RW позволяет создавать единое корпоративное информационное пространства.
Развитая система безопасности, наследующая свойства безопасности источников информации, в совокупности с Web-технологией позволяет использовать RW как средство для создания территориально распределенных автоматизированных систем. RW обеспечивает пользователю просмотр документов более чем в 250 форматах, среди которых как широко известные: doc, rtf, txt, pdf, html, так и специфическиe форматы, например, форматы САПР (dxf, dwg). В последней версии RW реализована возможность поиска информации в архивах (ZIP, :). Система фильтрации, работающая с использованием технологии компании "Outside In", обеспечивает пользователю просмотр документов в их родном формате.
4. В RW реализована возможность динамической рубрикации всей поступающей информации на основе запросов, созданных пользователями. Таким образом, реализуется функция "профайлинга" и значительно сокращается время ознакомления с вновь поступившей информацией, так как она представляется пользователю в структурированном виде, т.е. предварительно разложенной по рубрикам.
5. В RW реализована функция кросс - языкового поиска. Пользователю достаточно задавать вопросы на родном языке, система на основе установленного соответствия семантических сетей для разных языков, возвращает документы на других языках. В настоящее время проводятся работы по созданию украинского семантического сервера.
6. RW может автоматически извлекать атрибуты из текстовых документов определенной структуры и помещать их в СУБД (создавать формуляры для документов).
7. RW обладает неограниченными возможностями масштабирования как по объемам обрабатываемой информации, так и по количеству обрабатываемых запросов.
8. RW имеет дополнительные сервисные программы: - RW FileRoom - данный сервис полностью интегрирован с RW и предназначен для обеспечения работы с бумажными архивами. В RW FileRoom совместно хранятся отсканированные образы документов и текстовые файлы, содержащие результаты оптического распознавания. Документам приписываются учетные карточки. Структура электронного архива может повторять структуру бумажного за счет использования виртуальных шкафов, ящиков и папок, что позволяет по электронному образу документа легко находить место хранения физического документа. - RW Internet Spider - специальное приложение для поиска в обозначенных областях Интернета и Интранета. - RW WebExpress - специальное приложение для обслуживания провайдеров, обеспечения поиска по содержимому веб-сайта и электронной торговли через Интернет. - RW CDExpress - для создания портативных баз данных на компакт-дисках, содержащих поисковой механизм RW.
Средства управления видео архивом - ScreeningRoom (SR) - комплексное решение проблем анализа и поиска видео информации. Наряду с визуальным поиском позволяет выделять из видео изображений текст, соответствующий субтитрам или телетексту и преобразовывать в текст сопровождающий аудиодорожку. Существует возможность с каждым из выделенных видеофрагментов сопоставить разнообразную текстовую информацию - название, аннотацию, субтитры и т.п. - т.е. создавать аннотацию к видео сюжетам "storyboard". Преимущества:
Возможность быстрого преобразования видео данных в цифровую информацию.
Удобный поиск нужного фрагмента в цифровом видео архиве.
Средства для системных интеграторов и разработчиков программных систем, использующих решения компании Convera - RetrievalWare SDK и Visual RetrievalWare SDK. Позволяют разрабатывать дополнительный функционал к RW для обеспечения решения задач конкретной организации.
Среди пользователей продукции компании "Convera" Правительства - России, США, Великобритании, Израиля, Польши, Чехии, Венгрии и Швеции; патентные ведомства - Швейцарии, Англии, США, Узбекистана и России (ФИПС); мировые банки - Worldbank, ЦБ России, Внешторгбанк России, Swiss Bank; крупнейшие организации - НК "Юкос", "Лукойл-Пермь", NASA, Авиа космический центр России, Boeing Company, General Electric, Intel, Ford Motor Company, AUDI; СМИ - CNN, "The Financial Times", "Медиа Мост", "ABC News"; финансовые компании - Visa International. Всего более 5000 компаний, организаций и предприятий, расположенных во всех странах мира.
Convera RetrievalWare 8 - первая платформа извлечения знаний
(корпоративная аналитическая система)
Convera RetrievalWare 8 - первая платформа извлечения знаний (корпоративная аналитическая система - передовое решение для поиска, организации, анализа и интеграции информационных массивов, обеспечивающее обнаружение скрытых неочевидных знаний. RetrievalWare 8 работает
·вне зависимости от точки доступа
·с различными типами данных
·различными хранилищами
·с разными языками
RetrievalWare 8 - исключительно быстрая, точная и гибкая система, она позволяет пользователям идентифицировать информационные фрагменты и их взаимосвязи, тем самым вскрывая неявные знания и помогая организации использовать весь потенциал ее информационных ресурсов.
Динамическая классификация и Обнаружение знаний
Существует два способа отыскания информации: поиск и просмотр.
Традиционный поиск фокусировался на вводе запроса и исследовании результатов, что порой напоминало поиск иголки в стоге сена.
Просмотр используется, когда информация предварительно упорядочена в осмысленную структуру, позволяющую пользователю осуществлять навигацию среди папок, размещенных в определенном порядке.
Представление результатов в соответсвии с углом зрения
Важной инновацией RetrievalWare v.8 является Динамическая классификация с использованием таксономий. Совершенствуя процессы индексирования и категоризации, Динамическая классификация распределяет результаты представления иерархической структуры в соответствии с углом зрения, выбранным пользователем. Это дает возможность создавать запросы во всех режимах (Логический, Смысловой, Нечеткий), так же как и представлять список результатов, автоматически составленный системой на основе одного или нескольких классификаторов.
Способность динамически структурировать он-лайновые результаты в более осмысленное представление позволяет существенно ускорить процесс извлечения знаний. Пользователь, используя преимущества Динамической классификации результатов, просматривая различные варианты классификации, находит папки с высокой концентрацией релевантной информации, предоставляя уникальные возможности анализа взаимосвязей информационных объектов и помогая <отыскать иголку в стоге сена>.
Динамическая классификация RetrievalWare позволяет пользователю комбинировать классификаторы в разных вариантах, обеспечивая оперативное построение динамически формируемых папок, изменяющихся в ходе процесса осмысления материала. Это позволяет пользователю использовать дополнительную форму представления результатов в виде таблицы, которая дает возможность проведения многомерного анализа. Например, одни и те же результаты могут быть одновременно классифицированы системой по двум разным основаниям (по географии и видам нефтепродуктов).
За счет комбинирования классификаторов значительно ускоряется процесс извлечения знаний путем предоставления пользователю возможности моментального создания фильтров, просеивающих ключевую информацию, соответствующих уникальной и постоянно меняющейся точке зрения пользователя без риска <потеряться> среди нерелевантной несвязной информации. Каждый раз, когда новый документ проходит через системный поисковый движок, его содержание сопоставляется с существующими в системе классификаторами. RetrievalWare делает это автоматически, без участия администратора. Классификация, таким образом, является разновидностью поиска.
Картриджи и их использование
Другой важной инновацией RetrievalWare 8 является гибкий модульный принцип добавления лингвистических ресурсов с помощью, так называемых картриджей. В Convera RetrievalWare 8 используются языковые доменные и таксономические картриджи.
·Языковые картриджи производят обработку контента на одном или нескольких языках.
·Доменные картриджи содержат контент, специфический для определенной предметной области, и используются для смыслового расширения запроса при Поиске по смыслу.
·Таксономические картриджи содержат тематические таксономии, используемые при классификации результатов поиска.
·Пользовательские картриджи используются для интеграции пользовательского контента (например, список имен собственных или
·специфический тезаурус организации) для усовершенствования поиска и классификации.