Смекни!
smekni.com

Интерактивное исследование неколичественных данных: методика и инструментарий (стр. 2 из 3)

Рис. 3. Схема исследования в соответствии с первым сценарием анализа.

Второй сценарий описывает случай, когда существует некая внешняя (априорная) классификация, определяемая относительно узким набором свойств (см. рис 4).

Тогда задачу можно сформулировать следующим образом: классифицировать объекты по всем другим свойствам в целом и сравнить априорную и апостериорную схемы. Следовательно, мы должны начать с указания свойств, определяющих внешнюю классификацию в качестве эталонных и классифицировать весь набор свойств. В результате этого шага выявляются группы свойств, коррелирующих с эталонными. Теперь в нашем распоряжении имеются группы основных свойств, которые могут подсказать нам, каким образом следует выбрать эталоны среди объектов. На этом шаге разумно установить нулевые веса эталонным свойствам с тем, чтобы они игнорировались при классификации объектов, и повысить веса основных свойств, отличных от эталонных. Теперь классификация даст нам набор эталонных объектов и работа может быть продолжена в соответствии с первым сценарием.

Исследование свойств полученных групп и сравнительная групповая статистика помогает оценить качество классификации. В результате может быть принято решение изменить параметры классификации. Или, если классификация представляется неудовлетворительной, найденные классы и/или объекты, которые не попали ни в один класс, могут быть выделены в новые наборы данных, и для каждого из них всю процедуру можно повторить с самого начала.

Рис. 4. Схема исследования в соответствии со вторым сценарием анализа.

Третий сценарий анализа применим в ситуации, когда ничего определенного об исследуемом наборе данных не известно. В таком случае задача не может быть сформулирована более конкретно, чем "изучить набор данных" (см. рис 5а).

Рис. 5а. Схема исследования в соответствии с третьим сценарием анализа.

Сеанс работы можно начать с просмотра частот свойств. Основываясь на них, пользователь может выбрать несколько наиболее часто встречающихся свойств и принять их за эталонные. Дальнейшая последовательность работы примерно совпадает со вторым сценарием. Альтернативное решение состоит в выборе объектов, содержащих наиболее часто встречаемые свойства, определение их в качестве эталонных и переходе к работе по первому сценарию.

Рис. 5б. Схема исследования в соответствии с третьим сценарием анализа.

В качестве еще одного подхода (см. рис 5б) можно предложить начать сеанс работы с выбора одного объекта в качестве эталона случайным образом. Затем просмотреть близости до него с тем чтобы найти самые непохожие на него объекты, которые потенциально могут служить дополнительными (альтернативными) эталонами. Такого рода предварительный анализ можно продолжать до тех пор, пока не сформируется разумный набор эталонов. После этого снова вступает в действие первый сценарий.

Набор возможных стратегий исследования не ограничивается тремя вышеописанными сценариями. Следует указать по крайней мере еще на три важных применения QualiDatE.

Близость к эталону можно рассматривать как меру принадлежности в смысле теории нечетких множеств. Если исследователь достаточно хорошо знаком с понятиями этой теории, то он может оперировать непосредственно со значениями близости и создавать нечеткие классификации, не используя классификационных функций программы. Кстати говоря, классификация типа покрытие, как она реализована в программе, имеет своим результатом то, что в теории нечетких множеств называется альфа-сечением нечеткого множества.

QualiDatE может использоваться в качестве инструмента для построения кросс-табуляций. Ее отличие от традиционных процедур кросс-табуляции заключается в том, что благодаря определенной взаимозаменяемости понятий группы и сущности, QualiDatE позволяет производить кросс-табуляцию для составных свойств - иначе говоря, для любых комбинаций признаков.

QualiDatE может использоваться как своего рода нечеткая база данных. Выбор объектов на основе близости до эталона может рассматриваться как нечеткий запрос - что-то вроде "найти все, что похоже на это до такой-то степени". Сама эта степень задается установлением весов и порогов. В частном случае нечеткость запроса может быть сведена к нулю, так что его результатом будет являться выборка, основанная на точном совпадении некоторых определенных значений.

* * *

Перейдем к примеру исследования, реализующего то, что выше было описано как второй сценарий.

Предлагаемый к рассмотрению набор данных содержит сведения о членах 1-ой Государственной Думы 1906-ого года. Все данные в нем являются качественными и были извлечены из текстовых источников, таких как биографии, справочники и т.п. Набор данных содержит сведения о фракционной принадлежности каждого депутата и некоторые его социальные характеристики[4].

Рассматриваемые данные используются для выяснения того, существовало ли какое-либо соответсвие между принадлежностъю к фракции и социальным профилем депутата. В центре исследования стоят две наиболее крупные фракции 1-ой Государственной Думы - трудовики и кадеты.

Соответствующая формальная гипотеза, которая должна быть верифицирована, формулируется следующим образом:

cуществуют относительно однородные (в терминах социальных характеристик) группы лиц;

cуществует соответствие между этими группами и принадлежностью к фракции. Т.е. существуют "типичный трудовик" и "типичный кадет", которые представляют ядра своих фракций.

Формальная задача разбивается на следующие четыре шага:

найти типичные характеристики для каждой фракции;

найти эталонных депутатов;

построить кластеры депутатов, игнорируя их фракционную принадлежность;

исследовать пересечение полученных кластеров и подмножеств, задаваемых значениями "трудовик" и "кадет".

При решении этой задачи мы должны очевидно следовать второму сценарию, поскольку здесь мы имеем дело с априорной классификацией, задаваемой фракционной принадлежностью, которую мы должны сопоставить с классами, получаемыми по совокупности других свойств объектов.

Выполнить первый шаг - означает найти два кластера свойств, близких (сильно коррелирующих) к свойствам "трудовик" и "кадет" (являющихся в этом случае эталонными). Поскольку нашей целью является нахождение свойств, характерных для каждой из фракций и только для нее, то разумно использовать симметричную близость. В принципе, можно использовать и пару асимметричных близостей. При выборе типа классификации мы остановимся на покрытии, поскольку нам необходимо видеть, пересекаются ли два искомых класера (делят ли они некоторые свойства). Таблица 1 представляет результаты классификации при нижнем пороге равном 0.2 и верхнем - 1. Все показанные свойства, кроме "русский", характерны только для одной фракции.

Таблица 1. Близости основных свойств до эталонных.

Эталоны Свойства Трудовик Кадет
трудовик трудовик 1.000 0.000
русский 0.199 0.242
общее образ. 0.242 0.072
начальое образ. 0.247 0.053
крестьян.происх. 0.305 0.096
крестьянин 0.296 0.071
"земледелец" 0.223 0.070
кадет зарплата 0.172 0.351
русский 0.199 0.242
юридич. образ. 0.037 0.219
высшее образ. 0.068 0.438
дворянин 0.005 0.307
дворянское происх. 0.015 0.226
кадет 0.000 1.000

Две колонки цифр дают нам предварительную информацию о том, что такое "типичный трудовик" и "типичный кадет". Следует отметить, что две группы свойств не так тривиальны, как это кажется на первый взгляд. Дело в том, что рассматриваемая база данных воспроизводит неоднозначную терминологию своих источников. Например, слово "крестьянин" в действительности может обозначать различные свойства в зависимости от того, используется ли оно для указания сословия, происхождения или занятия. Корреляция между последними тремя свойствами может быть невысокой. Реальный крестьянин определяется лишь целым набором свойств, и это как раз тот набор, который мы встречаем в кластере свойства "трудовик".

На втором шаге мы переключаемся на представление объектов данных и находим двух лиц: одного, обладающего свойствами класса "типичный трудовик" (общий профиль и начальный уровень образования, крестьянин из крестьян, земледелец), другого - со свойствами "типичного кадета" (высшее юридическое образование, дворянин из дворян, жалование как источник дохода). Затем (третий шаг) мы находим лиц, группирующихся вокруг двух выбранных эталонов. В этом случае должна использоваться асимметричная близость к эталону, поскольку большинство лиц описано более детально, чем эталонные, а следовательно, должно быть устранено влияние "излишних" характеристик. Классификация должна быть типа разбиение с ограничениями, поскольку наша задача - извлечь из набора данных две четко разграниченные группы депутатов.