Мне очень нравится время от времени слушать казахское радио, когда из малопонятного потока красиво переливающейся тюркской речи удается выделить знакомые слова «трактор» или «президент Буш». Вслушайтесь только в «армарио амарильо» или «аралас товарлары». Первое переводится с испанского как «желтый шкаф», а второе на казахском означает всего лишь «смешанные товары».
То, о чем я сейчас буду рассказывать, в чем-то совпадает с этим хобби, только оказываемся мы, как бы так выразиться, с другой стороны. Точно также как слово «трактор» не переводится на казахский язык, на русский непереводим оборот «data mining» («дэйта майнинг»). «Майнинг» отдельно перевести можно – это «добыча (полезных ископаемых)» от «mine» – шахта, рудник. «Data» – это данные, информация. Но «data mining» вместе – это не добыча информации, а скорее «раскопки», которые ведет исследователь внутри уже собранной информации.
Что это такое?
Приведем сначала несколько определений «data mining», собранных из разных источников:
1.Выделение из данных неявной и неструктурированной информации, представление ее в удобном виде.
2.Анализ и представления детализированных данных для решения проблем бизнеса.
3.Обработка больших объемов данных для выделения структур (patterns).
4.Обнаружение новых значимых корреляций и тенденций в данных большого объема.
5.Процесс, цель которого — обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образов плюс применение статистических и математических методов
6.Автоматическое выделение эффективной информации из больших баз данных.
7.Анализ информации в базе данных с целью отыскания аномалий и трендов без выявления смыслового значения записей
8.Процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности
9.Информационный инструмент управления, с помощью которого возможно вскрывать структуры, способные приводить к решениям в условиях неопределенности.
Есть и более лаконичное, хотя и шутливое определение: «Вы мучаете информацию, пока она не признается». Все эти определения верны, каждое по-своему. Но они не объясняют сути метода.
Иногда data mining приравнивают к «обнаружению знаний» (knowledge discovery), под которым понимается нахождение скрытых структур, регулярностей (patterns), преобразующих информацию в знания.
Теперь попробуем описать, что же такое data mining по существу.
Общеизвестный статистический анализ состоит в том, что сначала исследователь выдвигает гипотезу о связи или независимости признаков, которую затем проверяют на статистическую значимость. «Добыча эффективной информации» (data mining), в отличие от статистического анализа, представляет некоторую стандартную цепь процедур, практически не оставляющей возможности для творческого подхода в рамках собственно математической статистики.
Что же ограничивает творчество в data mining? Прежде всего, data mining направлен на практическое применение результатов анализа, а не на принципиальное исследование структуры анализируемых явлений или субъектов деятельности. Иными словами, если на основании выявленной закономерности нельзя принять никакого решения, то эта закономерность для data mining не существует.
Новый оптимальный раскрой
Против одного из наших клиентов работали восемь конкурентов. Положение было настолько тяжелое, что у него сложилось мнение: «В одиночку не выжить». И тут появилась потребность в ответе на вопрос: «С кем из конкурентов целесообразно договариваться о сотрудничестве?». Ведь перебор будущих партнеров – дело недопустимое. Информация и слухи о первых же переговорах потекут рекой. К каждому следующему кандидату придется идти, соглашаясь на все более тяжелые условия сотрудничества.
Были набраны разные характеристики конкурентов, числом около сорока, от численности персонала до родственных связей с представителями власти. Затем проведено «разрезание» этой группы на максимально отличающиеся друг от друга части. В одну группупопали два конкурента, в другую шесть. Мы подробно описали отличия этих групп, и какие ходы могут быть сделаны для того, чтобы склонить к сотрудничеству какого-либо члена каждой группы. Наш заказчик внимательно ознакомился с предложениями и решил, что выбирать нужно из маленькой группы - той, где два конкурента. Мы получили новое задание: еще более подробно описать отличия двух конкурентов, оказавшихся в одной группе и, по сравнению с прочими, близких друг к другу. В конце концов, выбор был сделан, и переговоры оказались на редкость удачными. Характерный и, к сожалению, типичный, побочный результат этой работы состоял в том, что до сих пор наш клиент убежден, что успех был обеспечен его талантом переговорщика, а не малопонятной «суетой вокруг цифири».
Из всех процедур data mining выделю одну, наиболее показательную как по необычности (малой распространенности), так и по явной пользе, происходящей от использования этого метода, называемого слайсинг. Итак, в системе data mining чаще всего процедуры анализа начинаются с «разрезания» исследуемой совокупности, со слайсинга (slicing, от слова to slice – разрезать). При этом используется принцип «полного отрыва от содержания». То есть статистическая совокупность рассматривается просто как набор точек в многомерном пространстве. Точки расположены неравномерно: в одних местах есть сгущения точек, в других они расположены редко, есть и совершенно пустые зоны. Расстояния между точками разные, различны и распределения проекций этих точек на оси признаков. С формальной точки зрения, одно разделение совокупности на две части будет более обоснованным, чем другое. Содержание, в данном случае, отступает на задний план.
Вместо того чтобы разделять совокупность на содержательно обоснованные группы (что чаще всего и делается), при слайсинге сначала разделяют совокупность по формальным критериям, а только потом пытаются согласовать полученное разделение с некоторыми содержательными, объясняющими критериями. Такая «вывернутая» последовательность несколько необычна для многих, привыкших работать сразу на основании содержательных критериев. Однако, спустя совсем малое время, «единожды согрешивши», такие специалисты с увлечением разгадывают загадки, которыепреподносит им формально работающий алгоритм слайсинга.
Поясним суть слайсинга на конкретном примере. На графике результаты слайсинга напоминает обращенное кроной вниз дерево, в этом он чем-то похож на гроздь (кластер).
По этой причине слайсинг иногда путают с кластеризацией, то есть с выделением групп объектов по всем признакам сразу. Но нужно помнить, что кластеризация - это анализ структуры объектов, а с помощью слайсинга анализируют структуру признаков. По нашему опыту слайсинг более удачен для аналитики конкурентной разведки, чем кластеризация. О причинах позже, сейчас разберем пример.
График 1
Пример результатов слайсинга
Представим, что приведенная схема получилась в результате анализа номенклатуры товаров, которые производит ваш конкурент. А информацию о продажах вы получили каким-то утомительным способом вроде постоянного наблюдения за его торговыми точками, либо менее целомудренно, заполучив ее через подкупленного программиста.
Итак, у вас есть информация с кассовых аппаратов конкурента, что же теперь с ней делать? Кто видел эту информацию, у того сразу пропадет охота выдвигать какие-либо гипотезы изначально. Это все равно что, приехав из села, наблюдать за жизнью города. Вместо предположений о зависимостях и взаимосвязях одни вопросы: «Ой, а что это такое? А что же здесь происходит?». Какие уж тут гипотезы измышлять.
И вот мы начинаем процедуру слайсинга. Процедура выявляет первый признак, по которому совокупность товаров разделяется на два первых нода. Такой термин принят в анализе для обозначения выделенных групп объектов. Оказывается, это цена. Дорогиетовары (нод 1 на схеме) отделились от прочих (нод 2). В свою очередь, нод 1 разделился надвое по тому же признаку цены. При этом нод самых дорогих товаров (нод 3) дальше не делится. Это означает, что конкурент выбрал какую-то подозрительно однородную группу очень дорогих товаров. Берем на заметку, идем дальше.
Нод 4, в который вошли дорогие, но не очень, товары, разделился по признаку «день недели». В нод 7 вошли товары, которые продаются только по выходным, в нод 8 – продающиеся в будние дни.
Нод прочих (недорогих) товаров (нод 2) разделился по признаку «количество товаров в чеке». В нод 5 попали товары, которые покупаются десятками, в нод 6 – приобретаемые не более десятка. Таким образом, разделение между пятым и шестым нодами прошло по признаку «количество товаров в чеке», то есть в одной покупке. Нод 5, в свою очередь, разделился на нод 9 и нод 10 по признаку «время покупки», а нод 6 – на ноды 11 и 12, «производитель (поставщик) товара». Последнее разделение выделило в отдельную группу товар (назовем его Х), который, как выяснилось после дополнительного анализа, составлял значительную долю общего оборота товаров от данного производителя.
Последнее деление оказалось наиболее существенным для последующих шагов в отношении конкурента. Ведь проводя анализ с использованием схемы data mining, мы не располагали информацией относительно долей, какие каждый товар занимает в товарном потоке от того или иного производителя.
Но то, что какой-то товар «вывалился» при очередном «разрезании», навел на мысль, что здесь что-то неладно. После нескольких специальных мероприятий мы выяснили действительную роль товара Х в обороте конкурента. По собранным признакам, этот товар «вел себя» нестандартно и нами была получена дополнительная информация, чрезвычайно важная для борьбы с конкурентом. А именно: если мы «подкосим» его бизнес по товару Х, то и в целом с поставками от производителя у него будет неважно. Стратегия работы против конкурента свелась к тому, что был выбран товар А другого производителя, конкурирующий с товаром Х, и продажи товара А были организованы с минимальной торговой наценкой. В конце концов, продажи товара Х у конкурента упали, он разорвал связи с его поставщиком и довольно значительной группы товаров от того же производителя. Теперь можно было увеличивать наценку на товар А.
Кроме того, разделение нода 2 на ноды 5 и 6 («количество товаров в чеке»), а также последующее разделение нода 5 наноды 9 и 10 (по показателю «время покупки») навели на мысль о том, что в магазин конкурента захаживают мелкие розничные торговцы. Причем, делают они это вне «часов пик». На основании этой информации было установлено наблюдение за розничными торговцами, приходящими в магазин, и проведеныс ними соблазняющие беседы. В итоге магазин лишился значительной доли выручки.
Практический результат, приведенный в условном примере, несколько упрощен. Но сейчас моя задача состоит в том, чтобы на не слишком сложном примере объяснить суть и практическую пользу слайсинга.
Итак, с помощью слайсинга выясняются те скрытые элементы информации, которые вряд ли могут быть выявлены другими методами. Предшественник слайсинга в математической статистике – дискриминационный анализ. Отношения между ними такие же, как между техническим анализом курсов ценных бумаг и академическим анализом тенденций рынка.
Еще более близкая аналогия противопоставлению может быть извлечена из истории самой математической статистики. Когда появились первые работы по планированию эксперимента, то в приличных статистических журналах их не печатали. Как же так? Без проверки близости эмпирического распределения к нормальному, да еще на основании малой выборки что-то там считать? Это ненаучно. Прошло два или три десятилетия, пока противники новых методов успокоились.
Так и продолжают сосуществовать две линии: высоконаучная (анализ трендов, проверка на соответствие нормальному распределению, дискриминантный анализ) и прикладная (технический анализ, планирование эксперимента, а вот теперь и слайсинг).
Помимо слайсинга
Было бы неправильно видеть в системе datamining некоторую единую методику, под этим именем, как, впрочем, и под именем «кибернетика», понимается набор разрозненных математико-статистических методов, к числу которых относится ассоциирование, то есть объединение в группы сходных объектов. Кластеризация, которая уже упоминалась, представляет собой частный случай и наиболее развитую процедуру ассоциирования. Объединение объектов в рамках кластеризации иерархическое, мелкие группы объектов оказываются вложенными в более крупные. В последнее время в пакеты программ data mining включаются и новомодные методы: нечеткая логика, размытые множества, генетические алгоритмы, фрактальные преобразования, нейронные сети. Общий принцип таков, неважно какие методы, главное – чтобы поставленная задача была решена.
Существует несколько специализированных программных пакетов, содержащих набор процедур datamining. Но в нашей практике мы обычно пользуемся модулем DataMiner, который включен в широко известную статистическую программу STATISTICA.
Его основу составляет программа слайсинга GeneralSlicer/DicerExplorer. Результаты ее работы и показаны выше. Кроме этого в составе модуля есть программа классификации GeneralClassifier. Эта программа включает в себя блоки построения регрессионных моделей, классификации по образцам и дискриминантного анализа. Специализированная программа GeneralModeler/MultivariateExplorer содержит набор методов множественной регрессии и факторного анализа. Программа позволяет составлять произвольные структурные уравнения. Программа GeneralForecaster, еще один компонент модуля DataMiner предоставляет широкий выбор традиционных методов прогнозирования: распределенные лаги, выделение сезонных колебаний, экспоненциальное сглаживание. И завершает набор элементов модуля программа нейронных сетей.
В современных системах мониторинга и конкурентной разведки data mining начинают использовать не только стандартные схемы, но и встраивают эти схемы в системы ввода информации. Каждая новая порция информации подвергается анализу сразу же после того, как она поступила. Такие процедуры называются «аналитический процесс он-лайн» (On-Line Analytic Processing, сокращенноOLAP) или«быстрый анализ распределенной многомерной информации» (Fast Analysis of Shared Multidimensional Information или FASMI).
Оперативные технологии позволяют генерировать из баз данных оперативные описательные или сравнительные справки. Несмотря на название (он-лайн), OLAP на практике не работает в реальном времени; анализ все-таки делается периодически, по мере появления потребности в нем. И вместе с тем, иногда OLAP или FASMI запускаются автоматически спустя определенное время. По мере работы с одним и тем же увеличивающимся массивом, эти системы постепенно «привыкают» к стандартным схемам анализа, типичным для исследователя, занимающегося данной проблемой.
Почему data mining хорош для конкурентной разведки?
Как говорилось выше, в традиционной обработке данных предполагается, что первоначально должна быть выдвинута гипотеза о связи переменных или их комплексов, но за этим стоит и не формальная, содержательная гипотеза. Аналитика в конкурентной разведке похожа на полную сюрпризов работу сапера. Вот встретилось нечто неожиданное и это нужно изучить тщательно, определить безошибочно. Последствия могут и не быть такими трагичными, как у сапера. Но как знать.
Не будет преувеличением сказать, что сначала сформировались профессиональные способности интерпретировать неожиданные результаты, и только потом появилась (стала возможной) система data mining.
Вкратце легенда появления таких людей как профессионалов звучит так. Несмотря на вполне понятное увлечение Зорге и Штирлицами, ни у СССР, ни у его союзников не было достаточного числа шпионов в нацистской Германии и Японии. Основная разведывательная информация приходила из разрозненных, случайно захваченных документов, из допросов военнопленных, радиоперехватов и снимков самолетов-разведчиков. Даже обработка личных писем противника с фронта и на фронт была поставлена на поток. Собирать вместе все части такой головоломки до войны никто не умел, специалисты постепенно обучались собирать разрозненные сведения в логичную интерпретацию, способную обосновать какое-либо важное решение.
Тогда со всей остротой встала кадровая проблема. В ходе перебора сотен (а если по всем странам – то тысяч) потенциальных кандидатов в аналитики выяснилось, что Шерлоки Холмсы на такую работу не годятся. Лучшие аналитики, интерпретаторы разрозненных сведений находятся среди тех, кто может мыслить не только логически, но и образно. Лучшие кандидаты, способные работать с «подарками», которые преподносит методика data mining, не всегда рассуждают последовательно. Иногда они попросту раздражают, когда перескакивают с одного на другое без видимой связи между темами. Их описание реальности или будущих событий в чем-то напоминает сновидение, в котором ты то летишь в небе, то оказываешься в подземелье. Причем все это не кажется тебе неестественным и необычным. Внешняя информация витиевато переплетается с поставленной задачей, а общая задача неожиданно превращается в частную.
Найти таких людей непросто. Например, ЦРУ (еще раз коснемся этой организации) стремится набирать аналитиков из лучших выпускников колледжей. Их инструктируют и полгода «натаскивают» на сборе некоторой условной, придуманной разведывательной информации, иногда относящейся к реальному прошлому. Спустя полгода стажировки новичок защищает перед комиссией свою первую интерпретацию данных. Прошедших экзамен еще год-два заставляют извлекать объяснения из неточных данных, интерпретировать их без оговорок.
Для аналитической работы в конкурентной разведке непригодны люди, которые работали в других сферах, в особенности там, где человек должен нести ответственность за свои суждения. В особенности безнадежны те, кто за свою ошибку был наказан, уволен, понижен в должности.
Но тот, кто ошибся в аналитической оценке по ходу вхождения в непростую работу по интерпретации разрозненных сведений, достоин не осуждения, а лишь того, чтобы его ошибку включили в неизбежные издержки обучения нового специалиста. В противном случае и этого человека можно испортить.
Одной из особенностей и типовых ошибок конкурентной разведки состоят в том, что выявленные закономерности и их интерпретацию трудно увязать со временем. Именно из-за необходимости интерпретировать полученные результаты в большинстве своем аналитики ошибаются, когда оценивают сроки. В ЦРУ заранее знали, что экономика Советского Союза развалится. Но было неизвестно когда. И распад СССР был неожиданным даже для тех, кто сделал этот верный прогноз.
И еще один прием, связанный с интерпретацией результатов. Любой вариант интерпретации можно проверить выдачей его знающим людям (не обязательно начальству) в некотором сослагательном, предположительном варианте. По ходу дела нужно внимательно следить за реакцией собеседника, и если он начинает приводить дополнительные аргументы в пользу предлагаемой вами интерпретации событий, нужно быстро уходить от темы, прерывать разговор или переводить его на другое. А если начинаются возражения, тогда беседу следует продолжать до тех пор, пока не будет выдвинуто альтернативное объяснение выявленной закономерности.
Такая проверка теоретических построений аналитика не связана непосредственно с реальной жизнью. Это лишь попытка выхода на совпадение мнений, и совсем не исключено, что оба мнения окажутся ошибочными. Только вероятность ошибки немного уменьшилась.
Помимо конкурентной разведки, data mining используется везде, где сложно выдвинуть предварительные гипотезы из-за слабого знания изучаемой предметной области. В розничной торговле это – выявление товаров, которые стоит продвигать совместно; выбор местоположения товара в магазине (выкладка). В маркетинге – поиск рыночных сегментов, тенденций покупательского поведения. В финансах - выявление правил экспертных систем для андеррайтинга; классификация дебиторских задолженностей по возможностям взыскания; прогноз изменений на валютных рынках. В хозяйственно-юридической практике – анализ контрактов. Этот список далеко не полон, и его можно очень долго продолжать.
Приведу несколько примеров, близких к конкурентной разведке, но непосредственно к ней не относящихся.
Пример из области общей договорной практики: «Кто из ваших партнеров в наименьшей степени захочет отозваться на ваше новое предложение?». При этом следует отдавать себе отчет в том, что напрямую на этот вопрос никто не ответит.
Из сферы оптовой торговли в data mining может придти такой вопрос: «Через какой канал и кому следует предлагать поступившие новые товары?».
В розничной торговле с помощью его решается, в частности, такая проблема: «Какие товары следует продвигать со скидками, чтобы это привело к общему росту продаж?».
Самодеятельная песня
Жизнь как-то давным-давно свела меня с блестящим социологом и бардом С. В.Чесноковым. В те годы он сочинял красивые песни и работал пожарником в Театре на Таганке. Талантливые люди могут себе позволить и не такое занятие, ведь внутренний мир у них заметно богаче внешнего. Мы сидели в какой-то тесной подсобке, у меня «горел» билет на самолет в Новосибирск, но прервать беседу было невозможно. Познакомившись спустя десять с лишком лет с системой data mining, я многократно вспоминал тогдашнюю беседу.
Потом, уже спустя пару лет, С. В. Чесноков издал книгу о методике, которую он назвал «детерминационным анализом». Книга вышла только потому, что за нее вступился лауреат Нобелевской премии по экономике академик Л. В. Канторович.1
Задачи, которые решает детерминационный анализ, на удивление близки к тем, которые ставит перед собой и data mining:
·Находить правила, скрытые в данных
·Вычислять критические границы числовых факторов
·Находить и анализировать качественные факторы
·Строить новые признаки и использовать их при поиске правил
·Вычислять связи между признаками в несвязанных массивах данных
Основная идея детерминационного анализа всегда излагалась его автором как нечто универсальное и высоконаучное. Кто не верит, может обратиться к его статье в журнале «Социологические исследования» и насладиться «на полную катушку».
А вот сейчас вас ждет неполное наслаждение. Приводимая ниже цитата взята с сайта аналитической компании «Контекст», которую С. В. Чесноков основал в 1989 г. и возглавляет до сих пор.
«Правило как детерминация - это условное суждение вида.
Если А, то В
вместе с двумя своими характеристиками: точностью и полнотой.
Признак A называется объясняющим.
Признак B называется объясняемым.
Точность правила - это доля случаев, когда правило подтверждается среди всех случаев его применения (доля случаев B среди случаев A).
Точность правила {Если A, то B} = N(A,B)/N(A) = P(B|A)
Полнота правила - это доля случаев, когда правило подтверждается среди всех случаев, когда имеет место объясняемый признак (доля случаев A среди случаев B).
Полнота правила {Если A, то B} = N(A,B)/N(B) = P(A|B)
С математической точки зрения, условное суждение вида «Если A, то B» есть упорядоченная пара (A, B). Правила могут иметь какие угодно сочетания значений точности и полноты. Исключение составляет лишь один случай: если точность равна нулю, то равна нулю и полнота (и наоборот).
При перемене местами объясняемого и объясняющего признаков (т.е. при переходе к обратному правилу) точность и полнота меняются местами.
Точность правила {Если A, то B} = Полнота правила {Если B, то A}
Полнота правила {Если A, то B} = Точность правила {Если B, то A}».
Ну, а теперь к делу. Допустим, мы согласны с высказыванием: «Все мои конкуренты мне противны». И добавляем к нему частное высказывание «Женя Б. – мой конкурент». Из этого следует вывод «Женя Б. мне противен». Но если пойти дальше и «перевернуть» логику рассуждений следующим образом: «Этот человек (некоторый произвольный, не обязательно Женя Б.) мне противен»? Можно ли из этого сделать вывод, что этот человек – мой конкурент?
Перечитаем вновь цитату о правилах детерминационного анализа. Конкурентность – объясняющий признак, противность – объясняемый. Точность правила «Если конкурент, то противный», определяется долей противных людей среди моих конкурентов. Точность обратного правила «Если противный - то конкурент» определяется вероятностью того, что, увидев противного человека, я потом узнаю: да, он действительно мой конкурент. Полнота первого правила состоит в том, что противность – не единственный (неполный) признак, определяющий конкурента, нужно добавить еще какие-то. Полнота второго правила состоит в том, что противность человека еще не дает права относить его к конкурентам. Хотя потом, когда мы узнаем, что он тоже бизнесмен и работает на том же рынке товаров или услуг, то набор признаков(«к тому же еще и противный!») задает новый критерий С. И высказывание, казавшееся маловероятным, становится более достоверным в форме «если С, то А».
Теперь перейдем к примерам. Начнем с простого и покажем, каковы могут быть направления совершенствования метода. Стартовый пример, собственно, к детерминантному анализу не относится, а взят из одного моего давнего исследования, когда казалось, что мир анализа информации пуст и все придется придумывать самому. Проводилось исследование результатов одной из советских хозяйственных реформ. Проводился опрос директоров промышленных предприятий Сибири и Дальнего Востока. Директора отвечали на 20 вопросов о реформе. Их ответы обрабатывались, в результате ЭВМ выдавала следующие похожие друг на друга тексты по отраслям сибирской и дальневосточной промышленности (пробелы заполнялись вычисленными значениями):
«Были опрошены ___ директоров предприятий (отрасли)промышленности Сибири и Дальнего Востока, что составляет ___ %от всего числа директоров этой отрасли в данном регионе страны.
Из них ___ человек, то есть ___% опрошенных придерживаются единого мнения относительно проведенной реформы. Это единое мнение состоит в том, что на вопрос
1.(содержание вопроса) они отвечают (содержание ответа, например, да),
на вопрос
2.(содержание вопроса) они отвечают (содержание ответа, например, нет),
и так далее…»
Список вопросов в таких текстах был меньше двадцати по той причине, что по некоторым из вопросов общего списка у директоров не было единого мнения.
Не трудно догадаться, как строились эти тексты. Сама форма была стандартной; машина находила самую заполненную клеточку в многомерной матрице, учитывающей все переменные, то есть вопросы. Это и было стартовое, действительно единое мнение. Если клеточка эта была слабо заполнена, скажем, в ней оказывалось всего 10% опрошенных, находился тот вопрос, при исключении которого группа с единым мнением значительно увеличивалась. И вопросы исключались один за одним до тех пор, пока группа с единым мнением не превышала двух третей от общей совокупности опрошенных.
Что в такой методике плохого? Недостатка два. Последовательное исключение вопросов не ведет к единственному решению, то есть можно найти другую последовательность исключения признаков и другое их сочетание, где группа с единым мнением будет не меньше. Можно, конечно, заставить компьютер перебирать все сочетания вопросов, хотя это и унизительно. И второй недостаток – произвол. Почему две трети? Да просто так.
И вот теперь даю краткую характеристику возможностей (достоинств) детерминационного анализа. Он при решении подобной задачи позволяет обойтись без упоминавшихся выше перебора и произвола. То есть детерминационный анализ упорядочивает правила выделения наборов ячеек в таблице (или многомерной матрице). С помощью выделенных наборов можно установить связи между одиночными иликомбинированными признаками. В прикладном отношении детерминационный анализ делает для качественных признаков то же, что факторный анализ делает для признаков количественных.
Почему data mining и детерминационный анализ мало известны?
В заключение обсудим важную проблему – слабую распространенность описанных методов в практической работе, не только в конкурентной разведке, но и в маркетинге, да и в аналитике вообще. Первая причина состоит в том, что в кризисе российского образования пострадали в первую очередь именно те учебные дисциплины, которые наиболее необходимы в рыночной экономике. К ним относится и математическая статистика.
Data mining представляет собой следующий этап обработки эмпирических данных по отношению к классическим методам, базирующимся на математической статистике, которая, в свою очередь, опирается на теорию вероятностей.
Что касается детерминационного анализа, то в отношении его распространения действуют три ингибитора. Метод опирается не только на математическую статистику, но и на развитие раздела логики (силлогистику Аристотеля), который известен немногим. Это раз. Он придуман человеком, находившимся долгое время за пределами официальной науки – это два. И, наконец, после нескольких попыток внедрить его в практику работы с социально-экономической информацией автор и его коллеги ушли в обработку медицинской информации по государственным заказам. Это три.
Остановлюсь только на первом тормозе, так как он имеет непосредственное отношение к методам конкурентной разведки. Начну со случая, происшедшего очень давно, значительно раньше встречи с С. В. Чесноковым. Молодой преподаватель Института имени Плеханова Л. И. Абалкин предложил мне организовать по вечерам лекции по курсу «Логика для экономистов». Тогда Л.И. Абалкин, успевший затем поработать даже премьер-министром России, курировал научную работу студентов общеэкономического факультета. Совершенно не подозревая, что произойдет дальше, я отправился на Волхонку. Там, рядом сакадемическим Институтом экономики (его сейчас и возглавляет академик Леонид Иванович Абалкин) располагался Институт философии Академии наук СССР. Когда я рассказал заместителю директора Института о такой инициативе экономистов (студентов, аспирантов и преподавателей), он порекомендовал мне А. А. Зиновьева. Сам при этом как-то улыбнулся в сторону и вниз.
Только потом я понял, как мне нечаянно повезло. Свои конспекты лекций будущего диссидента и ныне мюнхенского профессора, всемирно известного ученого-логика А. А. Зиновьева я перечитывал потом неоднократно, удивляясь, каждый раз, как много он сказал, и как мало я тогда понял.
В чем была основная идея, проводившаяся им на лекциях о логике для экономистов? Она проста донельзя. Любая структура, которая имеет установленные строгие правила вывода одного термина из другого, называется логикой. Вместо булевой алгебры А.А. Зиновьев показывал стройные системы вычисления терминов, которые сложились у разных народов для описания родственных связей.Выяснилась правомерность сосуществования разных схем. Например, столь естественное порождение слова «теща» от слов «мать» и «жена» в других системах родства выглядит более сложным, и у других народов «тещу» нельзя определить столь простым способом. Но вместо этого можно просто определить двоюродного племянника по линии матери мужа. И то, и другое А.А. Зиновьев называл физической логикой для того, чтобы отличать эти типовые схемы реальности от логики математической.
Работа аналитика с системой data mining состоит в том, чтобы породить некоторую новую систему взаимосвязей между терминами, которая до этого не существовала. Классические методы обработки информации предполагают исходные гипотезы (предположения) относительно содержательных взаимосвязей между переменными, равно как и между объектами. Data mining заставляет выдумывать то, что не предполагалось, после того, как компьютер выдаст очередную загадку. В физической логике А.А. Зиновьева содержатся примеры порождения таких связей.
Надо сказать, что спустя сорок лет никто так и не написал «Логику для экономистов», тема эта остается экзотической не только для отечественной, но и для мировой науки. Поэтому и детерминационный анализ известен мало, и все еще редки практические приложения системы data mining.
Проблемы интерпретации результатов
Поскольку в системе data mining сама компьютерная программа задает вопросы, не всегда на эти вопросы можно ответить «с маху», без подготовки. Приходится длительное время обдумывать то, что получилось. Помочь в таком обдумывании могут некоторые стандартные приемы. Так, если вы оцениваете рыночную позицию конкурента относительно вашей, то интерпретацию и исходные данные принято делить на четыре категории.
Первая категория – фоновая. Она связывает интерпретацию выявленных элементов позиции конкурента с развитием отрасли и территории, тенденциями локального и общероссийского рынков. Если у конкурента дела идут неважно когда рынок на подъеме - это одно направление интерпретаций его конкурентной позиции. Если же фирма«загибается» вместе с рынком – это совсем другое, тогда интерпретация может касаться только частностей, особенностей его нынешнего тяжелого положения. Отправным для рассуждений здесь оказывается фон, а интерпретирующей частью оказывается место конкурента на этом фоне.
Вторая категория касается собственно конкурента, ассортимента его товаров и услуг, планов производства и строительства. Эта интерпретация касается модели поведения конкурента самого по себе, исходя из его динамики и истории развития, а также, если удастся узнать, из планов и намерений. Отправным для интерпретации здесь оказывается некоторая идеальная модель поведения, а интерпретации подлежат отклонения в поведении конкурента от этой выстроенной модели.
Третья категория касается параметрических сравнений конкурентов между собой. Выясняются, например, их доли на рынке, технологические уровни и прочее, а также мнения потребителей и поставщиков относительно этих параметров. В данном случае исходными для рассуждения являются значения параметров по отдельным конкурентам, а интерпретации подлежат некоторые интегральные оценки позиции конкурента. С выделением того, какой параметр для интегральной оценки наиболее или наименее важен, нужно быть крайне осторожным.
Наконец, четвертая категория или четвертый режим интерпретации, когда стартовым является интегральный рейтинг конкурентов, а объясняющая, интерпретирующая часть касается отдельных признаков. Вот в этом случае требуется более подробно порассуждать о причинах, по которым тот или иной признак сильно повлиял на рейтинговую оценку конкурента. При этом не следует забывать «волшебные слова» аналитика: «вполне возможно, что» и «кажется весьма вероятным следующее».
***
Высказывание, сделанное названием данной статьи, принадлежит И. Ньютону. Он не «измышлял гипотез» из принципа. Те, кто работают в современной конкурентной разведке, не делают этого вынужденно по трем причинам. Гипотезу невозможно выдвинуть сразу при огромной и разнородной информации. Гипотезу опасно выдвигать, когда между версиями есть только небольшие нюансы. Наконец, если ты ее выдвигаешь, это означает, что какой-то информации ты придаешь большее значение, чем другой.
А когда тебе очередную загадку задает компьютер, хорошо полностью избавиться от предвзятости. Впрочем, отказавшись от выдвижения гипотез, исследователь взваливает на себя существенно более тяжелую ношу. Он должен уметь не просто объяснять отдельные загадки, преподносимые ему компьютером, но и увязывать свои разгадки в стройную, логичную систему.
1Чесноков С.В. Детерминационный анализ социально-экономических данных. М.: Наука, 1982. Более поздняя книга, покруче, вышла за океаном:Чесноков С.В.Физика Логоса. Нью-Йорк: Телекс, 1991. Но более доступна большая по объему статьяЧесноков С.В. Метаматрицы в логике натуральных текстов, Социологический журнал, 2003, №2, с. 46-89