Самообучающиеся алгоритмы – наиболее приемлемый метод для построения моделей на основе неструктурированной информации (текстовой информации). Но данный метод имеет свои особенности и сложности. Перед внесением данных в нейросеть их нужно тщательно обработать, удалив «мусор». Иначе внеся «мусор» на входе – получите «мусор» и на выходе. В первую очередь необходимо выбрать основополагающие свойства оригинала. Те свойства, которые оказывают максимальное воздействие на интересующие нас стороны существования объекта изучения.
Приемы анализа:
1) Построение последовательности событий (Исторический метод).
Данный метод является одним из наиболее простых и позволяет быстро понять, что происходит. С него начинается изучение той или иной области, того или иного объекта. Суть его заключается в следующем – все поступающие данные выстраиваются по времени описываемых событий. После чего определяется что за чем следует, какой факт какое событие предопределяет, что чему сопутствует и т.п. Иначе говоря, восстанавливается хронология событий. Это один из наиболее эффективных и используемых приемов обработки информации.
При построении цепочки событий, особенно если аналогично рассматриваются и параллельные происшествия, становиться многое понятно. Используя данный метод можно выяснить, как развивались события, что зачем следует и что чему предшествует, можно выявить определенные закономерности.
Разновидности данного метода используются для исследования потоков товаров – откуда, куда, через кого и когда проходил товар (или груз, или информация). Результатом такого исследования становится диаграмма событий. Сами события располагаются вдоль выбранной оси (горизонтальной или вертикальной), на которой есть разметка времени. А от предшествующего события к последующему ведет стрелка. С помощью такой визуализации удобно отображать большие объемы информации, выявлять аномалии и отклонения, находить «скопления» событий и т.п.
2) Выявление связей.
Этот метод можно охарактеризовать как определение всего, что так или иначе связано с изучаемым объектом или событием. Такие связи могут быть явными и неявными. К явным относятся прямо установленные. К неявным относятся те связи, которые нельзя доказать фактами, но которые могут существовать. Например, один юридический адрес у нескольких организаций может указывать на то, что они созданы одной юридической конторой, а на основе этого можно предположить и более значимую связь, которая, безусловно, требует дополнительной проверки. Неявные связи не являются фактами, но они указывают на то, в каком направлении нужно вести поиск. А это уже задание оперативникам.
Оптимальным представлением выявленных связей является визуальная форма – диаграмма связей. Объекты, между которыми выявлены связи, обозначаются разными геометрическими фигурами – в зависимости от принятых условностей. Например, человек – круг, а организация – прямоугольник. А связи – линиями. Если исследовать таким образом телефонные контакты или почту, можно учитывать направление связи используя для обозначения связи стрелки, а не линии. В центре такой диаграммы удобнее всего располагать объект с наибольшим количеством связей с другими объектами.
3) Выявление силы связей.
Данный прием хорошо иллюстрируется анализом телефонных контактов. Все контакты (связи) между объектами сортируются в зависимости от того, между кем они возникают. Затем оцениваются по частоте возникновения либо по продолжительности действия. На основе данных о силе связей строятся гипотезы и вырабатываются рекомендации для дальнейшего поиска.
Таким способом хорошо анализировать детализацию телефонных контактов. При наличии такой детализации за определенный период можно определить с каким абонентом у исследуемого наиболее тесные контакты, с кем контакты в нерабочее время, с кем в рабочее. Если такую статистику сравнить со статистикой одного из контактеров исследуемого лица, то можно выявить еще и их общие контакты, и их плотность.
Необходимо выделить несколько типов силы связей:
- частота;
- плотность;
- стабильность.
В примере с телефонными переговорами частота обозначает сколько раз осуществлялся контакт. Плотность указывает продолжительность разговоров. А стабильность описывает регулярность таких контактов – раз в день, пять раз в день или раз в неделю.
Если данные о силе связей нанести на диаграмму связей, получится еще более информативный документ. Силу связи можно обозначать толщиной и / или формой линии, или указанием силы связи цифрами на самой линии или рядом с ней. Цифра может обозначать выбранный вами признак: количество контактов, длительность контактов, или их плотность и т.п.
4) Резюмирование текста.
На предыдущих этапах вы попробовали реферирование, а теперь используем близкий по приемам метод – резюмирование. Технология следующая. Исследуемый текст читается три раза.
При первом прочтении выделяются слова, несущие основную смысловую нагрузку – ключевые слова – они выделяются. Это могут быть имена, названия, даты, профессиональные выражения и т.п.
При втором прочтении внимание концентрируется на ключевых словах, при этом выделяются короткие, не содержащие ничего лишнего словообразования (словосочетания), отражающие основные мысли исследуемого текста и характеризующие ключевые слова – также выделяются.
На третьем прочтении внимание обращается только на выделенные словообразования и на их основе строятся простые, краткие предложения, описывающие смысл сообщения. После чего делается вывод об основном смысле изучаемого текста.
Есть второй способ резюмирования – текст делится на законченные блоки (например, абзац) и содержание этих блоков пересказывается в одном предложении.
Существует и еще один способ – табличный. Он используется, в основном, для приведения к единому виду большого количества сходных по тематике информационных блоков. Изначально определяются, интересующие исследователя признаки. Затем составляется унифицированная форма объединения информации – обычно таблица (отсюда и название метода). После этого из каждого информационного блока выделяются признаки соответствующие выделенным признакам и заносятся в таблицу. Например, мы хотим таким образом обработать информацию о «заказных» убийствах. Определяем, что существенными для нас являются следующие данные: способ убийства, место убийства, причина убийства. Исходя из этого, обрабатываем имеющуюся информацию – разносим выявленные признаки в соответствующие ячейки таблицы. Далее к обработанной таким образом информацией можно применить и статистические методы, но изначально проводится подготовка текста – резюмирование. Фактически это структуризация информации.
В процессе обработки текста (в том числе и резюмировании) не забывайте о своей конечной цели. Старайтесь понять как (каким образом) данный информационный фрагмент может вам помочь, в чем он будет полезен, как его можно и нужно использовать. В конечном счете потребителю вашего труда (если это не вы сами) нужно с минимальными затратами времени получить ответ на свой вопрос, а не массу сопутствующего материала.
Потребителю информации в ряде случаев и подробности событий не нужны – ему нужна информация для решения его насущных проблем и ничего лишнего. Все максимально приземлено и заточено под интересы заказчика. Такая обработка информации это попытка ограниченными ресурсами добиться максимального результата.
Анализ сценариев.
В данном случае, основываясь на существующих положении дел и тенденциях, аналитик пытается нарисовать картину развития ситуации. Наиболее распространен способ, при котором рассматривается три варианта развития событий: пессимистический, реалистический и оптимистический сценарии.
Перед тем как начать описывать сценарии нужно тщательно изучить силы влияющие на исследуемый объект (или ситуацию):
- что за силы могут влиять, посредством чего происходит влияние,
- с какой активностью происходит влияние,
- устанавливаются причинно-следственные связи самой процедуры влияния.
А в процессе описания сценариев полезно иметь перед глазами список этих сил. Обычно написание сценариев начинается с вопроса типа «если объект Х почувствует, что его компания теряет рынок, что он предпримет?» Не видите никакого сходства с самонастраивающимися алгоритмами? Анализ сценариев схож по своей методе с нейронными сетями, но ограничен всего тремя вариантами (максимум, минимум и оптимум). Но здесь также необходимо определить факторы, влияющие на объект изучения, сила, с которой это влияние происходит и что обычно происходит при таком влиянии. И только после этого можно начинать предполагать, а что же будет в дальнейшем.
5. Формирование отчетов
6. Доведение до руководства
Конечная цель подразделения (сотрудника) конкурентной разведки довести до заказчика результат анализа о характере и масштабах экономически выгодных процессов, а также о задействованных в них конкретных лицах и организациях.
При этом очень важно иметь в виду, что заключение имеет ограниченную ценность, если оно не сопровождается вероятностной оценкой его достоверности.
Конкурентная разведка как дисциплина первоначально занималась процессами и средствами для сбора, анализа и распространения разведывательных данных, позволяющих сотрудникам принимать качественные и эффективные решения. Эти решения могут быть по своему характеру либо стратегическими, либо тактическими.
Тактическая (ориентированная на продукцию) конкурентная разведка обеспечивает потребности производственного отдела, служб маркетинга и продаж.