(публикуется с разрешения автора в авторской редакции)
Интернет сейчас рассматривается как незаменимый источник данных для бизнеса, в частности, отделов экономической безопасности и подразделений конкурентной разведки. Несколько практических советов помогут использовать колоссальный скрытый потенциал Всемирной паутины.
Где стоит искать?
Можно пытаться найти знающего человека (эксперта) и, как считают люди знающие, получить первичную информацию. Можно пойти в библиотеку или пробовать найти подходящий справочник.
Можно искать решение во Всемирной Паутине. Интернет – это сеть компьютерных сетей из свыше 20 млн. баз данных, содержащих в совокупности более квадрильона документов (1012). По некоторым оценкам объем Интернет удваивается каждые три года. Доступ к текстам через Интернет возможен, в основном, тремя способами: по гипертекстовым ссылкам, через поисковые каталоги и посредством поисковых систем и баз данных.
Хождение по гипертекстовым ссылкам в поисках нужного документа среди миллиардов документов – дело совершенно безнадежное. Однако гипертекст может оказать неоценимую помощь при сборе латентной (скрытой) информации об изучаемом объекте (обратная стратегия поиска), которую никакими другими способами поиска получить нельзя. Для реализации обратной стратегии поиска используется оператор link поисковых систем, обеспечивающий нахождение всех страниц, ссылающихся на объект исследования. Например, поисковые сервера http://www.google.com, http://www.alltheweb.com, http://www.altavista.com и http://search.msn.com по запросу
выдадут подборку страниц, ссылающихся на любую страницу сайта http://www.berator.ru. Для поисковой системы Яндекс (http://www.yandex.ru) аналогичный запрос имеет несколько другую запись:
Все запросы поисковых систем далее выделены курсивом с подчеркиванием и, если они не иллюстрируют пояснения, даны с отступом от левого края страницы.
Поиск в каталогах Интернет, как правило, непродуктивен. Крупнейший систематический каталог ресурсов Интернет – проект «Открытый каталог» (http://dmoz.org) содержит информацию о 4 млн. сайтов в 590 тыс. рубриках. Проект поддерживается руками свыше 67 тыс. редакторов-добровольцев и естественно наследует все пороки библиотек. Полнота представления информации в каталогах – чрезвычайно низкая, а средняя задержка с момента опубликования документа в Сети до момента его учета в каталогах может составлять кварталы.
Полнотекстовый поиск – это третий способ доступа к нужной информации через Интернет. Крупнейшие зарубежные поисковые системы Интернет и службы баз данных обеспечивают оперативный доступ к миллиардам документов: «Гугл» (http://www.google.com) – 8 млрд., одна из крупнейших коммерческих служб баз данных «Лексис-Нексис» (http://www.lexisnexis.com) – 4,5 млрд. текстов в 30 тыс. баз данных. Национальные ресурсы Интернет также весьма объемны: «Яндекс» (http://www.yandex.ru) имеет объем основной базы известных русскоязычных документов более 320 млн., а крупнейшая коммерческая служба баз данных «Интегрум» (http://www.integrum.ru) – более 75 млн. единиц хранения. В отличие от поисковых каталогов нахождение новых документов и их учет в полнотекстовых базах данных производится автоматически программами-роботами. Полнота самых объемных баз данных составляет доли процента от числа доступных через Интернет текстов.
Среднее время задержки доступности для поиска нового документа с момента его публикации в Сети для систем полнотекстового поиска обычно варьируется от единиц минут до месяцев. Минимальную задержку обеспечивают т.н. агрегаторы новостей, например, британский сервер "Новости сейчас" (http://www.newsnow.co.uk) индексирует почти 20 тыс. источников новостей с задержкой 5 минут. Поисковые системы сайтов обеспечивают доступ к новой информации на сайте с опозданием, как правило, не более суток. Поисковые системы общего назначения вынуждены перекачивать огромные объемы информации и в этой связи обеспечивают доступ к ней с запаздыванием в десятки дней и месяцы: Яндекс – 14 дней, Гугл – 30 дней.
Итак, мы разобрались в том, что по существу единственный способ доступа к проблемно-ориентированной информации через Интернет – это полнотекстовый поиск.
Где искать?
Заметная доля (более 97%) нужных документов по разным причинам не попадает в поле видения заинтересованных пользователей и условно называется «Невидимый Интернет». Невидимой эта часть Интернет является не потому, что там нельзя увидеть нужный документ, а потому, что доступ осуществляется в два этапа. Сначала требуется подобрать подходящие поисковые системы и базы данных, затем суметь найти в этих коллекциях требуемые материалы.
Для построения реестра открытых источников может применяться приведенная ниже классификация и один из 12 способов построения реестра проблемно-ориентированных ресурсов Интернет - авторские поисковые шаблоны. Работа с конкретным шаблоном состоит в его загрузке в текстовый редактор (Блокнот, MS Word…), замене всех значений параметров (начинаются со знака "#") на характерные для специализации базы данных слова, например, #отрасль → нефтехимия, а #отраслевой → нефтехимический и использовании полученного запроса для поиска.
Перечислим некоторые классы лучших в своем роде открытых источников, часто используемых для поиска информации о конкретном объекте или для разрешения проблемной ситуации.
Пояснение: Все поисковые системы имеют свои правила написания запросов (обычно фирменное описание дается на сайте). По умолчанию IxQuick будут найдены тексты, содержащие все слова запроса. Если между ключевыми словами стоит пробел, поисковая система, как правило, воспринимает его как требование одновременного присутствия в тексте обоих терминов (оператор, действующий по умолчанию). Если поисковая система имеет синтаксис языка запросов, аналогичный уже описанному, ничего повторно не поясняется.
Пояснение: Гугл по запросу duty-free находит все документы, содержащие фразу «duty free»; по запросу хамство OR пошлость находит все тексты, включающие любую из заданных словоформ.
Пример проблемы: История общественного телевещания в Австрии (немецкий язык, AllTheWeb – булевый расширенный поиск)
Пояснение: AllTheWeb по запросу "Osterreicher Rundfunk" находит все документы, содержащие в тексте требуемую последовательность заданных словоформ «Osterreicher Rundfunk» (точную фразу). AllTheWeb по запросу Rundfunk AND abwicklung находит все документы, содержащие в тексте все требуемые словоформы «Rundfunk» и «abwicklung».
Пример проблемы: Стратегии портфельного инвестирования (Интегрум):
((стратегия или субстратегия) (Dow или Forex или арбитражер или аукцион или биржа или биржевый или брокер или брокерский или валютный или вексель или вексельный или голубые :2 фишки или денежный или индексного :2 фонда или кривая :2 (доходности или доход) или ММВБ!т или облигация или пассивное :2 управление или портфель или портфельный или РТС!т или рыночного :2 опережения или спекулятивный или спекуляция или спекулянт или трейдер или фондовый или хедж или хеджер или хеджирование или ценные :2 бумаги) \с10)
Пояснение: Поисковая система АРТЕФАКТ (Интегрум) по запросу Dow или Forex находит все тексты, содержащие либо слово «Dow», либо «Forex», либо оба слова. Артефакт сначала выполняет инструкцию запроса во внутренних круглых скобках, затем все прочие «вышестоящие» инструкции. Артефакт по запросу голубые :2 фишки находит все документы, включающие последовательность любых словоформ в одном предложении, причем за словом «голубые» следует слово «фишка», а между ними может попасть не более 2 слов. Артефакт по запросу ММВБ!т находит все документы, содержащие сокращение «ММВБ» без словоизменений. Артефакт по запросу стратегия портфельный \с10 найдет все тексты, включающие хотя бы одно предложение с любыми словоформами «стратегия» и «портфельный» в любом порядке в группе из 10 смежных слов.
Пример проблемы: Подготовить по печатным изданиям досье на конкретный объект - ООО «Зооленд» из Екатеринбурга (Публичная Интернет-библиотека, более 30 млн. статей из 1700 изданий с бесплатным полнотекстовым поиском):
(зоолэнд | зооленд | "6658076024" | (екатеринбург & (посадская & 52 & 52 adj 5) within 10) | (екатеринбург & (отрадная 1 adj 3) within 6) | (3432 & "63-63-63" within 5) | (3432 & 636363 within 5) | (3432 & "636-363" within 5) | (3432 & "63-64-65" within 5) | (3432 & "636-465" within 5) | (3432 & 636465 within 5) | mikotov | (котовский & (михаил & арнольдович) | (м & а)) within 3) | (котовская & валентина within 3) | (michael & kotovskiy within 3))
Пояснение: Поисковая система Convera (Публичная Интернет-библиотека) по запросу зоолэнд | зооленд находит все тексты, содержащие правильное и/или неправильное написания названия фирмы. Convera по запросу (котовская & валентина within 3) находит все документы, включающее любые словоформы «котовская» и «екатерина» в группе из 3 смежных слов. Convera по запросу (посадская & 52 adj 5) находит все документы, содержащие любую словоформу «посадская», за которой следует номер «52» в группе из 5 смежных слов. Convera по запросу м & а найдет все тексты, включающие инициалы «м» и «а» одновременно.
Пояснение: АльтаВиста по запросу russia* (шаблон «*» в конце слова) находит все документы, содержащие после требуемого начала слова от 0 до 5 любых символов (пробелы и спецсимволы не допускаются), например, «russia», «russian», «russians».
Пояснение: Яндекс по запросу аквизиция /3 враждебный находит все тексты, содержащие в произвольном порядке любые словоформы «аквизиция» и «враждебный» в группе из 4 смежных слов одного предложения (число «3» означает максимальную разницу порядковых номеров слов в предложении, взятую по модулю). Яндекс по запросу поглощение ~ агрессивный находит все документы, включающее любые словоформы «поглощение», причем в этом же предложении должна отсутствовать любая словоформа слова «агрессивный».
Пример проблемы: Новинки прикладных программ учета труда и заработной платы (Рамблер-Медиа)
Пояснение: Рамблер по запросу компьютерный || компьютер находит все тексты, содержащие любые словоформы «компьютер» или «компьютерный». Рамблер по запросу (2,заработный & плата) находит все документы, включающие одновременно любые словоформы «заработный» и «плата» рядом в любом порядке (в группе из 2 смежных слов).
Класс 6. Национальные специализированные базы данных и источники новостей, содержащие информацию о заданном классе объектов исследования (по отраслям промышленности или типам документов…), например, Федеральный регистр Минюста РФ (http://sakhjust.snc.ru/registr.html) обеспечивает доступ к правовым актам субъектов Федерации, а правительственный портал FirstGov (http://www.firstgov.gov/) к официальным документам США уровня штатов и выше. Вертикальный портал Бухгалтерия.RU (http://www.buhgalteria.ru) посвящен вопросам бухучета,
Пример проблемы: Бухгалтерская отчетность Интернет-магазинов (Бухгалтерия.RU)
Пример проблемы: Правовые акты о налогах Чеченской республики (Федеральный регистр Минюста РФ)
В поле «текст»: налог*
В поле «регион»: {20} (Чеченская республика)
Класс 7. Глобальные специализированные базы данных и источники новостей, не привязанные к территории и содержащие информацию о заданном классе объектов исследования (по отраслям промышленности или знаний, по типам документов или источников…), например, Химический портал (http://www.chemindustry.com/). Архивный портал ЮНЕСКО (http://www.unesco.org/cgi-bin/webworld/portal_archives/cgi//search.cgi) содержит данные о 7500 архивах со всего мира. Всемирный институт правовой информации (http://www.worldlii.org/) обеспечивает поиск по 473 базам данных по законодательству 55 стран, вкл. по 21 базе правовых актов международных организаций.
Пример проблемы: Снижение содержания радона в питьевой воде (английский язык, Химический портал)
Класс 8. Информационные ресурсы территорий, где хотя бы какое-то время присутствовал или в настоящее время находится объект исследования, например, телефонные справочники города Жиздра Калужской области (http://www.zhizdra.ru/Files/telefon.htm) и частных лиц (http://zhizdra.narod.ru/help/person-phones/a.htm) позволяют уточнить телефон любой организации или частного лица этого российского города с населением 5500 человек.
Класс 9. Иные базы данных (вакансии, выставки, форумы, персональные дневники – блоги, реестры предприятий, библиография, пресс-релизы…) автор объединил в специализированную базу данных, обеспечивающие профессиональный поиск материалов на любых языках по любым проблемам. Авторская база «Рабочее место аналитика» содержит в 350 классах систематизированные описания более 7000 баз данных и включает более 500 шаблонов для решения разнообразных задач, в частности, поиска подходящих открытых источников. Ведется работа над созданием системы из 4500 реестров баз данных городов России (по классификатору ОКАТО) и отраслевых поисковых систем (по классификаторам ОКВЭД, ОКП, ОКУ, ОКДП…), в каждом из которых обычно находится от 10 до 70 баз данных.
Как находить?
Общая процедура поиска решений проблемы по аналогии может состоять из следующих этапов.
Этап 1. Запишите проблему, как она дана. Пробуйте переформулировать решаемую проблему другими словами и для каждой новой формулировки проведите отдельный поиск.
Этап 2. Воспользуйтесь метапоиском или откройте поисковую систему Интернет с большим объемом индекса (классы 1-3). В дальнейшем, если позволяет время, постройте реестр проблемно-ориентированных баз данных (см. выше) и подготовьте запросы для каждой из них.
Этап 3. Примените «правило гармонии». В оперативном режиме работы можно просто последовательно добавлять в поисковый запрос слова из формулировки “проблемы, как она дана”, начиная с первого – самого уникального или значимого, вводя иные слова из формулировки в порядке снижения их существенности.
Пример проблемы: Незаконный вывоз урана из России (Яндекс)
Этап 4. По мере необходимости расширяйте существенные понятия (с 3 этапа) иными частями речи, словоформами, синонимами, антонимами, ошибочными написаниями и др. (известно более 40 видов лексических расширений).
Пример проблемы: Незаконный вывоз урана из России (Яндекс, предыдущий пример)
Пояснение: Яндекс по запросу !рф находит все тексты, содержащие точную словоформу сокращения «РФ» (без словоизменений).
Этап 5. Если добавляемое слово многозначно, либо уточняйте нужный смысл, добавляя дополнительные операнды (фиксация нужных контекстов), либо “отрезая” неподходящие контексты с использованием операторов исключения.
Пример проблемы: Деловая разведка (Яндекс, добавили уточняющие слова)
Пояснение: Яндекс по этому запросу найдет все документы, содержащие хотя бы одно предложение с любой словоформой «качество», перед которой нет предлога «в» (на предыдущей и через одну позициях).
Этап 6. Увидев подходящий фрагмент текста, прекращайте дальнейший просмотр результатов поиска, запишите его в отчет, распечатайте и проведите анализ.
Этап 7. Если в результате поиска ничего полезного не найдено - не отчаивайтесь. Либо измените порядок применения «правила гармонии» (3 этап), либо уменьшайте конкретизацию описания проблемы (последовательное удаление наименее существенных элементов поискового запроса), либо проведите логическое обобщение одного из элементов описания решаемой проблемы, либо найдете более подходящую базу данных, либо ищете на другом языке, например, английском.
Этап 8. Если найдено много полезных документов, но их полная обработка затруднена, ищите аналитические материалы. Когда описание проблемы встречается в тексте неоднократно – можно предположить, что это обзор или история изучаемого вопроса…
Формула запроса Яндекс для поиска многократных (не менее 8) цитирований:
Пояснение: Яндекс по запросу проблема &&/(+1 +10) проблема найдет все документы, содержащие «проблему» в соседних предложениях или в группе из не более 11 смежных предложений.
Формула запроса используется аналогично поисковому шаблону: #проблема заменяется на лояльность-персонала или любую другую формулировку.
Вместо заключения
В заключение заметим, что верить нельзя ничему. При работе через Интернет нас в большинстве случаев спасает многочисленность открытых источников или каналов распространения информации. Вся собранная информация проверяется на достоверность. Проверка достоверности собранной через Интернет информации заключается, в частности, в изучении публичных баз данных регистраторов доменных имен. Например, через сайт ООО «РегТайм» (http://www.webnames.ru/) можно проверить, на кого зарегистрирован сайт в зонах RU, SU, INFO, COM, NET, ORG, BIZ, NAME, WS, BZ, TC, GS, MS, VG, US, BE, IT, CC, TV. В части слишком правдоподобных или сомнительных или единичных данных при возможности персоналом обязательно проводятся дублирующие друг друга активные мероприятия (звонки по телефону, выезд на место, звуко- и видеозапись, фотосъемка, требование документов…).
О профессиональном поиске через Интернет и технологиях компьютерной разведки можно писать бесконечно. Успешное использование Интернет требует знания общей технологии поиска, постоянной тренировки (см. выше, пожалуйста, разберитесь со всеми примерами) и прохождения специального обучения. Так что наберитесь терпения и успеха Вам не избежать!