Корпоративная аналитическая система "Convera RetrievalWare 8"

Главная // Библиотека // Автоматизация //

In English

РОПКР и Конкурентная разведка

Для членов РОПКР

Библиотека

Публикации

Методические материалы

Услуги

Контакты

Партнеры

Вакансии

Поиск по сайту:

Технологии Convera
Компания "Convera Technologies International Ltd." (ранее Excalibur) - http://www.convera.com/ (http://www.convera.ru/ru/about/) - по данным отчетов Гартнер Груп уже много лет является мировым лидером в области разработки технологий поиска информации и извлечения знаний из текстов и мультимедийных данных любой природы (графические и видео изображения, звук сохраненных в файлах практически всех известных форматов).

В соответствии с характером обрабатываемых источников данных, программные продукты Convera имеют следующее назначение:

Для управления знаниями, представленными в текстовом виде компания Convera предлагает программный продукт RetrievalWare (RW) c набором дополнительных сервисных программ. Семейство продуктов RW обеспечивает поиск, анализ и выделение информации посредством задания пользователем поисковых запросов на естественном языке к информации, хранящейся как в неструктурированном виде так и формализованных базах данных, расположенной как в локальной сети организации так и в сети Internet.

Основные преимущества RW перед программными продуктами аналогичного назначения заключаются в следующем:

1. В RW реализована уникальная технология "нечеткого" поиска, позволяющая находить информацию не на основе точного совпадения запроса с данными, а на степени похожести запроса, с содержимым в источниках информации, что позволяет:

при проведении ретроконверсии бумажных документов отпадает необходимость правки документов после распознавания текста, что в свою очередь позволяет перевести объемные архивы бумажных документов в электронный вид за обозримый срок (до нескольких тысяч машинописных листов в день с одного рабочего места) и за разумные инвестиции (так стоимость правки одной страницы в России около 50 центов);
находить информацию, введенную с опечатками;
находить информацию, когда не знаешь точно, что ты ищешь, например нет уверенности в написании запроса (редкое слово - "реборда" или "риборда).

2. В RW реализована возможность ассоциативного поиска на основе семантической сети. При этом можно использовать несколько семантических сетей одновременно, например сеть на основе общей лексики русского языка и сеть понятий, используемых в приборостроении. Каждый пользователь может с легкостью создавать свои собственные семантические сети в дополнение к общим.

В семантической сети RW имеется возможность определения вида семантической связи для понятий, например, слова синонимы или антонимы, слова связанные отношением "род-вид" и т.п. Данное свойство обеспечивает высокую точность извлечения информации и позволяет автоматически находить документы (или записи в БД) не только по терминам заданным в запросе, но и по другим терминам, связанным по смыслу с заданным.

Развитый механизм оценки релевантности найденных документов позволят пользователю создавать запросы на естественном языке.

3. RW имеет возможность включать в единое поисковое пространство как информацию, хранимую в файловой системе, так и СУБД (Oracle, MS SQL, Sybase, Informix, Teradata, ODBC DBS), почтовых и корпоративных системах (MS Exchange, Lotus) и системах документооборота (StaffWare, Documentum, FileNet Panagon). С помощью RW можно организовывать доступ и индексировать удаленные хранилища данных. Это свойство RW позволяет создавать единое корпоративное информационное пространства.

Развитая система безопасности, наследующая свойства безопасности источников информации, в совокупности с Web-технологией позволяет использовать RW как средство для создания территориально распределенных автоматизированных систем. RW обеспечивает пользователю просмотр документов более чем в 250 форматах, среди которых как широко известные: doc, rtf, txt, pdf, html, так и специфическиe форматы, например, форматы САПР (dxf, dwg). В последней версии RW реализована возможность поиска информации в архивах (ZIP, :). Система фильтрации, работающая с использованием технологии компании "Outside In", обеспечивает пользователю просмотр документов в их родном формате.

4. В RW реализована возможность динамической рубрикации всей поступающей информации на основе запросов, созданных пользователями. Таким образом, реализуется функция "профайлинга" и значительно сокращается время ознакомления с вновь поступившей информацией, так как она представляется пользователю в структурированном виде, т.е. предварительно разложенной по рубрикам.

5. В RW реализована функция кросс - языкового поиска. Пользователю достаточно задавать вопросы на родном языке, система на основе установленного соответствия семантических сетей для разных языков, возвращает документы на других языках. В настоящее время проводятся работы по созданию украинского семантического сервера.

6. RW может автоматически извлекать атрибуты из текстовых документов определенной структуры и помещать их в СУБД (создавать формуляры для документов).

7. RW обладает неограниченными возможностями масштабирования как по объемам обрабатываемой информации, так и по количеству обрабатываемых запросов.

8. RW имеет дополнительные сервисные программы:
- RW FileRoom - данный сервис полностью интегрирован с RW и предназначен для обеспечения работы с бумажными архивами. В RW FileRoom совместно хранятся отсканированные образы документов и текстовые файлы, содержащие результаты оптического распознавания. Документам приписываются учетные карточки. Структура электронного архива может повторять структуру бумажного за счет использования виртуальных шкафов, ящиков и папок, что позволяет по электронному образу документа легко находить место хранения физического документа.
- RW Internet Spider - специальное приложение для поиска в обозначенных областях Интернета и Интранета.
- RW WebExpress - специальное приложение для обслуживания провайдеров, обеспечения поиска по содержимому веб-сайта и электронной торговли через Интернет.
- RW CDExpress - для создания портативных баз данных на компакт-дисках, содержащих поисковой механизм RW.

Средства управления видео архивом - ScreeningRoom (SR) - комплексное решение проблем анализа и поиска видео информации. Наряду с визуальным поиском позволяет выделять из видео изображений текст, соответствующий субтитрам или телетексту и преобразовывать в текст сопровождающий аудиодорожку. Существует возможность с каждым из выделенных видеофрагментов сопоставить разнообразную текстовую информацию - название, аннотацию, субтитры и т.п. - т.е. создавать аннотацию к видео сюжетам "storyboard". Преимущества:

Возможность быстрого преобразования видео данных в цифровую информацию.
Удобный поиск нужного фрагмента в цифровом видео архиве.

Средства для системных интеграторов и разработчиков программных систем, использующих решения компании Convera - RetrievalWare SDK и Visual RetrievalWare SDK. Позволяют разрабатывать дополнительный функционал к RW для обеспечения решения задач конкретной организации.

Среди пользователей продукции компании "Convera" Правительства - России, США, Великобритании, Израиля, Польши, Чехии, Венгрии и Швеции; патентные ведомства - Швейцарии, Англии, США, Узбекистана и России (ФИПС); мировые банки - Worldbank, ЦБ России, Внешторгбанк России, Swiss Bank; крупнейшие организации - НК "Юкос", "Лукойл-Пермь", NASA, Авиа космический центр России, Boeing Company, General Electric, Intel, Ford Motor Company, AUDI; СМИ - CNN, "The Financial Times", "Медиа Мост", "ABC News"; финансовые компании - Visa International. Всего более 5000 компаний, организаций и предприятий, расположенных во всех странах мира.

Convera RetrievalWare 8 - первая платформа извлечения знаний

(корпоративная аналитическая система)

Convera RetrievalWare 8 - первая платформа извлечения знаний (корпоративная аналитическая система - передовое решение для поиска, организации, анализа и интеграции информационных массивов, обеспечивающее обнаружение скрытых неочевидных знаний. RetrievalWare 8 работает

· вне зависимости от точки доступа

· с различными типами данных

· различными хранилищами

· с разными языками

RetrievalWare 8 - исключительно быстрая, точная и гибкая система, она позволяет пользователям идентифицировать информационные фрагменты и их взаимосвязи, тем самым вскрывая неявные знания и помогая организации использовать весь потенциал ее информационных ресурсов.

Динамическая классификация и Обнаружение знаний

Существует два способа отыскания информации: поиск и просмотр.

Традиционный поиск фокусировался на вводе запроса и исследовании результатов, что порой напоминало поиск иголки в стоге сена.

Просмотр используется, когда информация предварительно упорядочена в осмысленную структуру, позволяющую пользователю осуществлять навигацию среди папок, размещенных в определенном порядке.

Представление результатов в соответсвии с углом зрения

Важной инновацией RetrievalWare v.8 является Динамическая классификация с использованием таксономий. Совершенствуя процессы индексирования и категоризации, Динамическая классификация распределяет результаты представления иерархической структуры в соответствии с углом зрения, выбранным пользователем. Это дает возможность создавать запросы во всех режимах (Логический, Смысловой, Нечеткий), так же как и представлять список результатов, автоматически составленный системой на основе одного или нескольких классификаторов.

Способность динамически структурировать он-лайновые результаты в более осмысленное представление позволяет существенно ускорить процесс извлечения знаний. Пользователь, используя преимущества Динамической классификации результатов, просматривая различные варианты классификации, находит папки с высокой концентрацией релевантной информации, предоставляя уникальные возможности анализа взаимосвязей информационных объектов и помогая <отыскать иголку в стоге сена>.

Динамическая классификация RetrievalWare позволяет пользователю комбинировать классификаторы в разных вариантах, обеспечивая оперативное построение динамически формируемых папок, изменяющихся в ходе процесса осмысления материала. Это позволяет пользователю использовать дополнительную форму представления результатов в виде таблицы, которая дает возможность проведения многомерного анализа. Например, одни и те же результаты могут быть одновременно классифицированы системой по двум разным основаниям (по географии и видам нефтепродуктов).

За счет комбинирования классификаторов значительно ускоряется процесс извлечения знаний путем предоставления пользователю возможности моментального создания фильтров, просеивающих ключевую информацию, соответствующих уникальной и постоянно меняющейся точке зрения пользователя без риска <потеряться> среди нерелевантной несвязной информации. Каждый раз, когда новый документ проходит через системный поисковый движок, его содержание сопоставляется с существующими в системе классификаторами. RetrievalWare делает это автоматически, без участия администратора. Классификация, таким образом, является разновидностью поиска.

Картриджи и их использование

Другой важной инновацией RetrievalWare 8 является гибкий модульный принцип добавления лингвистических ресурсов с помощью, так называемых картриджей. В Convera RetrievalWare 8 используются языковые доменные и таксономические картриджи.

· Языковые картриджи производят обработку контента на одном или нескольких языках.

· Доменные картриджи содержат контент, специфический для определенной предметной области, и используются для смыслового расширения запроса при Поиске по смыслу.

· Таксономические картриджи содержат тематические таксономии, используемые при классификации результатов поиска.

· Пользовательские картриджи используются для интеграции пользовательского контента (например, список имен собственных или

· специфический тезаурус организации) для усовершенствования поиска и классификации.