2005г. С.Кузнецов "Поиск информации с использованием Интернета".

Главная // Библиотека // Публикации // Сбор - Анализ - Прогноз //

In English

РОПКР и Конкурентная разведка

Для членов РОПКР

Библиотека

Публикации

Методические материалы

Услуги

Контакты

Партнеры

Вакансии

Поиск по сайту:

Сергей Кузнецов, независимый консультант и тренер

Как найти нужную информацию, используя Интернет

Журнал «Консультант», № 9,11, 2005 г. (издательство «Бератор-Пресс»)

(публикуется с разрешения автора в авторской редакции)

Интернет сейчас рассматривается как незаменимый источник данных для бизнеса, в частности, отделов экономической безопасности и подразделений конкурентной разведки. Несколько практических советов помогут использовать колоссальный скрытый потенциал Всемирной паутины.

Где стоит искать?

Можно пытаться найти знающего человека (эксперта) и, как считают люди знающие, получить первичную информацию. Можно пойти в библиотеку или пробовать найти подходящий справочник.

Можно искать решение во Всемирной Паутине. Интернет – это сеть компьютерных сетей из свыше 20 млн. баз данных, содержащих в совокупности более квадрильона документов (1012). По некоторым оценкам объем Интернет удваивается каждые три года. Доступ к текстам через Интернет возможен, в основном, тремя способами: по гипертекстовым ссылкам, через поисковые каталоги и посредством поисковых систем и баз данных.

Хождение по гипертекстовым ссылкам в поисках нужного документа среди миллиардов документов – дело совершенно безнадежное. Однако гипертекст может оказать неоценимую помощь при сборе латентной (скрытой) информации об изучаемом объекте (обратная стратегия поиска), которую никакими другими способами поиска получить нельзя. Для реализации обратной стратегии поиска используется оператор link поисковых систем, обеспечивающий нахождение всех страниц, ссылающихся на объект исследования. Например, поисковые сервера http://www.google.com, http://www.alltheweb.com, http://www.altavista.com и http://search.msn.com по запросу

link:www.berator.ru

выдадут подборку страниц, ссылающихся на любую страницу сайта http://www.berator.ru. Для поисковой системы Яндекс (http://www.yandex.ru) аналогичный запрос имеет несколько другую запись:

#link="www.berator.ru*"

Все запросы поисковых систем далее выделены курсивом с подчеркиванием и, если они не иллюстрируют пояснения, даны с отступом от левого края страницы.

Поиск в каталогах Интернет, как правило, непродуктивен. Крупнейший систематический каталог ресурсов Интернет – проект «Открытый каталог» (http://dmoz.org) содержит информацию о 4 млн. сайтов в 590 тыс. рубриках. Проект поддерживается руками свыше 67 тыс. редакторов-добровольцев и естественно наследует все пороки библиотек. Полнота представления информации в каталогах – чрезвычайно низкая, а средняя задержка с момента опубликования документа в Сети до момента его учета в каталогах может составлять кварталы.

Полнотекстовый поиск – это третий способ доступа к нужной информации через Интернет. Крупнейшие зарубежные поисковые системы Интернет и службы баз данных обеспечивают оперативный доступ к миллиардам документов: «Гугл» (http://www.google.com) – 8 млрд., одна из крупнейших коммерческих служб баз данных «Лексис-Нексис» (http://www.lexisnexis.com) – 4,5 млрд. текстов в 30 тыс. баз данных. Национальные ресурсы Интернет также весьма объемны: «Яндекс» (http://www.yandex.ru) имеет объем основной базы известных русскоязычных документов более 320 млн., а крупнейшая коммерческая служба баз данных «Интегрум» (http://www.integrum.ru) – более 75 млн. единиц хранения. В отличие от поисковых каталогов нахождение новых документов и их учет в полнотекстовых базах данных производится автоматически программами-роботами. Полнота самых объемных баз данных составляет доли процента от числа доступных через Интернет текстов.

Среднее время задержки доступности для поиска нового документа с момента его публикации в Сети для систем полнотекстового поиска обычно варьируется от единиц минут до месяцев. Минимальную задержку обеспечивают т.н. агрегаторы новостей, например, британский сервер "Новости сейчас" (http://www.newsnow.co.uk) индексирует почти 20 тыс. источников новостей с задержкой 5 минут. Поисковые системы сайтов обеспечивают доступ к новой информации на сайте с опозданием, как правило, не более суток. Поисковые системы общего назначения вынуждены перекачивать огромные объемы информации и в этой связи обеспечивают доступ к ней с запаздыванием в десятки дней и месяцы: Яндекс – 14 дней, Гугл – 30 дней.

Итак, мы разобрались в том, что по существу единственный способ доступа к проблемно-ориентированной информации через Интернет – это полнотекстовый поиск.

Где искать?

Заметная доля (более 97%) нужных документов по разным причинам не попадает в поле видения заинтересованных пользователей и условно называется «Невидимый Интернет». Невидимой эта часть Интернет является не потому, что там нельзя увидеть нужный документ, а потому, что доступ осуществляется в два этапа. Сначала требуется подобрать подходящие поисковые системы и базы данных, затем суметь найти в этих коллекциях требуемые материалы.

Для построения реестра открытых источников может применяться приведенная ниже классификация и один из 12 способов построения реестра проблемно-ориентированных ресурсов Интернет - авторские поисковые шаблоны. Работа с конкретным шаблоном состоит в его загрузке в текстовый редактор (Блокнот, MS Word…), замене всех значений параметров (начинаются со знака "#") на характерные для специализации базы данных слова, например, #отрасль → нефтехимия, а #отраслевой → нефтехимический и использовании полученного запроса для поиска.

Один из шаблонов Рамблер для поиска средств массовой информации

(4,(#отрасль || #отраслевой) & (брошюра || бюллетень || ведомости || вести || вестник || газета || дайджест || ежемесячник || ежемесячный || еженедельная || еженедельник || журнал || записки || издание))

Один из шаблонов Гугл для поиска баз данных

#отрасль OR #отраслевой "расширенный поиск" OR "базы данных" OR "база данных" OR "поисковая система"

Перечислим некоторые классы лучших в своем роде открытых источников, часто используемых для поиска информации о конкретном объекте или для разрешения проблемной ситуации.

Класс 1. Национальные и глобальные метапоисковые системы общего и специального назначения: IxQuick (http://www.IxQuick.com), МетаБот (http://www.metabot.ru/), глобальный патентный метапоиск - SurfIP (http://www.surfip.gov.sg/sip/site/sip_home.htm)... Метапоиск – параллельный поиск по нескольким базам данных с формированием сводного результата.

Пример проблемы: Найти натовский учебник по использованию Интернет для военной разведки (английский язык, IxQuick)

intelligence exploitation of the internet

Пояснение: Все поисковые системы имеют свои правила написания запросов (обычно фирменное описание дается на сайте). По умолчанию IxQuick будут найдены тексты, содержащие все слова запроса. Если между ключевыми словами стоит пробел, поисковая система, как правило, воспринимает его как требование одновременного присутствия в тексте обоих терминов (оператор, действующий по умолчанию). Если поисковая система имеет синтаксис языка запросов, аналогичный уже описанному, ничего повторно не поясняется.

Класс 2. Глобальные поисковые системы и службы баз данных общего назначения: Гугл (http://www.google.com), AllTheWeb (http://www.alltheweb.com), Яху (http://search.yahoo.com), LexisNexis (http://www.lexisnexis.com/)...

Пример проблемы: Мониторинг сайтов конкурентов (английский язык, Гугл)

competitors-web-sites OR competitor-web-site monitor OR monitors OR monitoring

Пояснение: Гугл по запросу duty-free находит все документы, содержащие фразу «duty free»; по запросу хамство OR пошлость находит все тексты, включающие любую из заданных словоформ.

Пример проблемы: История общественного телевещания в Австрии (немецкий язык, AllTheWeb – булевый расширенный поиск)

("Osterreicher Rundfunk" OR "Osterreichischer Rundfunk") AND (abwicklung OR behandlung OR chronik OR chronologisch OR entfaltung OR entstanden OR entstehen OR entstehung OR entwicklung OR intensivierung OR epoche OR evolution OR geschichte OR historische OR historischer OR historisches OR nachkalkulierte OR periode OR periodendauer OR zeitdauer)

Пояснение: AllTheWeb по запросу "Osterreicher Rundfunk" находит все документы, содержащие в тексте требуемую последовательность заданных словоформ «Osterreicher Rundfunk» (точную фразу). AllTheWeb по запросу Rundfunk AND abwicklung находит все документы, содержащие в тексте все требуемые словоформы «Rundfunk» и «abwicklung».

Класс 3. Национальные поисковые системы и службы баз данных общего назначения: Яндекс, Рамблер (http://www.rambler.ru), «Интегрум» (http://www.integrum.ru), Публичная Интернет-библиотека (http://www.public.ru)…

Пример проблемы: Стратегии портфельного инвестирования (Интегрум):

((стратегия или субстратегия) (Dow или Forex или арбитражер или аукцион или биржа или биржевый или брокер или брокерский или валютный или вексель или вексельный или голубые :2 фишки или денежный или индексного :2 фонда или кривая :2 (доходности или доход) или ММВБ!т или облигация или пассивное :2 управление или портфель или портфельный или РТС!т или рыночного :2 опережения или спекулятивный или спекуляция или спекулянт или трейдер или фондовый или хедж или хеджер или хеджирование или ценные :2 бумаги) \с10)

Пояснение: Поисковая система АРТЕФАКТ (Интегрум) по запросу Dow или Forex находит все тексты, содержащие либо слово «Dow», либо «Forex», либо оба слова. Артефакт сначала выполняет инструкцию запроса во внутренних круглых скобках, затем все прочие «вышестоящие» инструкции. Артефакт по запросу голубые :2 фишки находит все документы, включающие последовательность любых словоформ в одном предложении, причем за словом «голубые» следует слово «фишка», а между ними может попасть не более 2 слов. Артефакт по запросу ММВБ!т находит все документы, содержащие сокращение «ММВБ» без словоизменений. Артефакт по запросу стратегия портфельный \с10 найдет все тексты, включающие хотя бы одно предложение с любыми словоформами «стратегия» и «портфельный» в любом порядке в группе из 10 смежных слов.

Пример проблемы: Подготовить по печатным изданиям досье на конкретный объект - ООО «Зооленд» из Екатеринбурга (Публичная Интернет-библиотека, более 30 млн. статей из 1700 изданий с бесплатным полнотекстовым поиском):

Пояснение: Поисковая система Convera (Публичная Интернет-библиотека) по запросу зоолэнд | зооленд находит все тексты, содержащие правильное и/или неправильное написания названия фирмы. Convera по запросу (котовская & валентина within 3) находит все документы, включающее любые словоформы «котовская» и «екатерина» в группе из 3 смежных слов. Convera по запросу (посадская & 52 adj 5) находит все документы, содержащие любую словоформу «посадская», за которой следует номер «52» в группе из 5 смежных слов. Convera по запросу м & а найдет все тексты, включающие инициалы «м» и «а» одновременно.

Класс 4. Глобальные агрегаторы новостей: DayPop (http://www.daypop.com/advanced), АльтаВиста-Новости (http://www.altavista.com/news/default)...

Пример проблемы: Новости по иску Юкоса к России в банкротном суде Хьюстона (английский язык, DayPop):

Yukos Houston

Пример проблемы: Новые материалы об отмывке российских денег за рубежом (английский язык, АльтаВиста-Новости)

russia* OR Kremlin OR Moscow AND money-laundering

Пояснение: АльтаВиста по запросу russia* (шаблон «*» в конце слова) находит все документы, содержащие после требуемого начала слова от 0 до 5 любых символов (пробелы и спецсимволы не допускаются), например, «russia», «russian», «russians».

Класс 5. Национальные агрегаторы новостей: Яндекс-Новости (http://news.yandex.ru), Рамблер-Медиа (http://www.rambler.ru/db/news/)...

Пример проблемы: Новости враждебных поглощений (Яндекс-Новости)

Пояснение: Яндекс по запросу аквизиция /3 враждебный находит все тексты, содержащие в произвольном порядке любые словоформы «аквизиция» и «враждебный» в группе из 4 смежных слов одного предложения (число «3» означает максимальную разницу порядковых номеров слов в предложении, взятую по модулю). Яндекс по запросу поглощение ~ агрессивный находит все документы, включающее любые словоформы «поглощение», причем в этом же предложении должна отсутствовать любая словоформа слова «агрессивный».

Пример проблемы: Новинки прикладных программ учета труда и заработной платы (Рамблер-Медиа)

(4,(программа || компьютерный || компьютер || (2,банк & данных) || ИБ) & (3,(учет || учитывание || учитывать || планирование || планировать || бухучет || аудит) & (труд || трудовой || персонал || кадры || кадровый || зарплата || оплата || (2,заработный & плата) || тариф || тарифный || тарификация || ставки || расценки || оклад)))

Пояснение: Рамблер по запросу компьютерный || компьютер находит все тексты, содержащие любые словоформы «компьютер» или «компьютерный». Рамблер по запросу (2,заработный & плата) находит все документы, включающие одновременно любые словоформы «заработный» и «плата» рядом в любом порядке (в группе из 2 смежных слов).

Класс 6. Национальные специализированные базы данных и источники новостей, содержащие информацию о заданном классе объектов исследования (по отраслям промышленности или типам документов…), например, Федеральный регистр Минюста РФ (http://sakhjust.snc.ru/registr.html) обеспечивает доступ к правовым актам субъектов Федерации, а правительственный портал FirstGov (http://www.firstgov.gov/) к официальным документам США уровня штатов и выше. Вертикальный портал Бухгалтерия.RU (http://www.buhgalteria.ru) посвящен вопросам бухучета,

Пример проблемы: Бухгалтерская отчетность Интернет-магазинов (Бухгалтерия.RU)

интернет магазин

Пример проблемы: Правовые акты о налогах Чеченской республики (Федеральный регистр Минюста РФ)

В поле «текст»: налог*

В поле «регион»: {20} (Чеченская республика)

Класс 7. Глобальные специализированные базы данных и источники новостей, не привязанные к территории и содержащие информацию о заданном классе объектов исследования (по отраслям промышленности или знаний, по типам документов или источников…), например, Химический портал (http://www.chemindustry.com/). Архивный портал ЮНЕСКО (http://www.unesco.org/cgi-bin/webworld/portal_archives/cgi//search.cgi) содержит данные о 7500 архивах со всего мира. Всемирный институт правовой информации (http://www.worldlii.org/) обеспечивает поиск по 473 базам данных по законодательству 55 стран, вкл. по 21 базе правовых актов международных организаций.

Пример проблемы: Снижение содержания радона в питьевой воде (английский язык, Химический портал)

radon water reduction

Класс 8. Информационные ресурсы территорий, где хотя бы какое-то время присутствовал или в настоящее время находится объект исследования, например, телефонные справочники города Жиздра Калужской области (http://www.zhizdra.ru/Files/telefon.htm) и частных лиц (http://zhizdra.narod.ru/help/person-phones/a.htm) позволяют уточнить телефон любой организации или частного лица этого российского города с населением 5500 человек.

Класс 9. Иные базы данных (вакансии, выставки, форумы, персональные дневники – блоги, реестры предприятий, библиография, пресс-релизы…) автор объединил в специализированную базу данных, обеспечивающие профессиональный поиск материалов на любых языках по любым проблемам. Авторская база «Рабочее место аналитика» содержит в 350 классах систематизированные описания более 7000 баз данных и включает более 500 шаблонов для решения разнообразных задач, в частности, поиска подходящих открытых источников. Ведется работа над созданием системы из 4500 реестров баз данных городов России (по классификатору ОКАТО) и отраслевых поисковых систем (по классификаторам ОКВЭД, ОКП, ОКУ, ОКДП…), в каждом из которых обычно находится от 10 до 70 баз данных.

Как находить?

Общая процедура поиска решений проблемы по аналогии может состоять из следующих этапов.

Этап 1. Запишите проблему, как она дана. Пробуйте переформулировать решаемую проблему другими словами и для каждой новой формулировки проведите отдельный поиск.

Этап 2. Воспользуйтесь метапоиском или откройте поисковую систему Интернет с большим объемом индекса (классы 1-3). В дальнейшем, если позволяет время, постройте реестр проблемно-ориентированных баз данных (см. выше) и подготовьте запросы для каждой из них.

Этап 3. Примените «правило гармонии». В оперативном режиме работы можно просто последовательно добавлять в поисковый запрос слова из формулировки “проблемы, как она дана”, начиная с первого – самого уникального или значимого, вводя иные слова из формулировки в порядке снижения их существенности.

Пример проблемы: Незаконный вывоз урана из России (Яндекс)

1. уран

2. вывоз уран

3. незаконный вывоз уран

4. незаконный вывоз уран из россия

Этап 4. По мере необходимости расширяйте существенные понятия (с 3 этапа) иными частями речи, словоформами, синонимами, антонимами, ошибочными написаниями и др. (известно более 40 видов лексических расширений).

Пример проблемы: Незаконный вывоз урана из России (Яндекс, предыдущий пример)

Пояснение: Яндекс по запросу !рф находит все тексты, содержащие точную словоформу сокращения «РФ» (без словоизменений).

Этап 5. Если добавляемое слово многозначно, либо уточняйте нужный смысл, добавляя дополнительные операнды (фиксация нужных контекстов), либо “отрезая” неподходящие контексты с использованием операторов исключения.

Пример проблемы: Деловая разведка (Яндекс, добавили уточняющие слова)

разведка /3 (деловая | бизнес | конкурентов | конкурентная)

Пример проблемы: Качество в смысле степени совершенства (Яндекс, исключили неподходящее слово)

качество ~/(-2 -1) +в

Пояснение: Яндекс по этому запросу найдет все документы, содержащие хотя бы одно предложение с любой словоформой «качество», перед которой нет предлога «в» (на предыдущей и через одну позициях).

Этап 6. Увидев подходящий фрагмент текста, прекращайте дальнейший просмотр результатов поиска, запишите его в отчет, распечатайте и проведите анализ.

Этап 7. Если в результате поиска ничего полезного не найдено - не отчаивайтесь. Либо измените порядок применения «правила гармонии» (3 этап), либо уменьшайте конкретизацию описания проблемы (последовательное удаление наименее существенных элементов поискового запроса), либо проведите логическое обобщение одного из элементов описания решаемой проблемы, либо найдете более подходящую базу данных, либо ищете на другом языке, например, английском.

Этап 8. Если найдено много полезных документов, но их полная обработка затруднена, ищите аналитические материалы. Когда описание проблемы встречается в тексте неоднократно – можно предположить, что это обзор или история изучаемого вопроса…

Формула запроса Яндекс для поиска многократных (не менее 8) цитирований:

+(#проблема) &&/(+1 +10) +(#проблема) &&/(+1 +10) +(#проблема) &&/(+1 +10) +(#проблема) &&/(+1 +10) +(#проблема) &&/(+1 +10) +(#проблема) &&/(+1 +10) +(#проблема) &&/(+1 +10) +(#проблема)

Пояснение: Яндекс по запросу проблема &&/(+1 +10) проблема найдет все документы, содержащие «проблему» в соседних предложениях или в группе из не более 11 смежных предложений.

Формула запроса используется аналогично поисковому шаблону: #проблема заменяется на лояльность-персонала или любую другую формулировку.

Вместо заключения

В заключение заметим, что верить нельзя ничему. При работе через Интернет нас в большинстве случаев спасает многочисленность открытых источников или каналов распространения информации. Вся собранная информация проверяется на достоверность. Проверка достоверности собранной через Интернет информации заключается, в частности, в изучении публичных баз данных регистраторов доменных имен. Например, через сайт ООО «РегТайм» (http://www.webnames.ru/) можно проверить, на кого зарегистрирован сайт в зонах RU, SU, INFO, COM, NET, ORG, BIZ, NAME, WS, BZ, TC, GS, MS, VG, US, BE, IT, CC, TV. В части слишком правдоподобных или сомнительных или единичных данных при возможности персоналом обязательно проводятся дублирующие друг друга активные мероприятия (звонки по телефону, выезд на место, звуко- и видеозапись, фотосъемка, требование документов…).

О профессиональном поиске через Интернет и технологиях компьютерной разведки можно писать бесконечно. Успешное использование Интернет требует знания общей технологии поиска, постоянной тренировки (см. выше, пожалуйста, разберитесь со всеми примерами) и прохождения специального обучения. Так что наберитесь терпения и успеха Вам не избежать!

Апрель 2005 года, Сергей Кузнецов [email protected]