2011 Борис Григорьевич Миркин Профессор, Кафедра анализа данных и искусственного интеллекта опми ниу вшэ, Москва, РФ (стр. 8 из 13)

Подход Бэйеса: Используется не для оценки значений параметров, но лишь для уточнения характера распределения. Исходное распределение f(y) заменяется при этом на распределение f(y/x), где - x наблюденные данные, с помощью теоремы Бэйеса, которая позволяет вычислить p(y/x) по известной p(x/y).

6 История и методология анализа данных

6.1 Понятие признака; виды шкал измерения; адекватность количественных утверждений.

6.2 Основные задачи анализа данных в связи с обогащением знаний

6.3 Аппроксимационный подход к анализу данных: метод наименьших квадратов как эвристический принцип; декомпозиция разброса данных.

6.4. Другие парадигмы в анализе данных (классической статистики, машинного обучения, обогащения знаний, эвристического моделирования)

6.5 Разработка данных и концепция «интересного».

6.6 Современные подходы к представлению знаний.

6.1 Понятие признака; виды шкал измерения; адекватность количественных утверждений.

Математик считает, что признак – это отображение множества (всех возможных) объектов в какое-либо множество, называемое множеством значений. Математический статистик полагает, что признак – это случайная величина. Физик или социолог включают сюда способ измерения с постоянной – и не очень-то решаемой – проблемой: как убедиться, что измеряется именно заявленный показатель (валидность), а также как понять насколько точно измерение –(надежность). Социальные измерения – это настоящая головная боль. Это особенно ясно, когда измеряешь такие характеристики как общественный продукт (сильно влияет количество трансформаций типа зерно/мука/хлеб или более сложных как, скажем, при строительстве домов) или производительность труда (задача нелегкая даже когда речь идет об относительно однородном труде, как вождение автофургона, а если речь идет о всех водителях региона за год – надо учесть, например, их болезни, отпуска, поломки и т.п.). Или возьмите Марксову категорию «общественно необходимый труд» - как узнать? – А ведь вся теория социализма опирается на это понятие.

Много внимания было уделено проблеме: как отделить количественные признаки от качественных.

На основе более ранних изысканий Гельмгольца и др. в физике, психолог С. Стивенс сформулировал понятие типа шкалы (1948 г.), которое в основном стало общепринятым. Тип шкалы x, понимаемой как отображение множества объектов в множество значений, кодированное вещественными числами, определяется множеством её допустимых преобразований Ф={j}, так что признак остается тем же после преобразования j(x) для всякого jÎФ. В соответствии с этим выделяют типы шкал:

- абсолютный (Ф состоит из одного тождественного преобразования j(x)=x; пример – счет индивидов),

- отношений или относительный (Ф состоит из преобразований вида j(x)=ax для произвольных вещественных a; всякое выбранное a соответствует выбору масштаба),

- интервалов или интервальный (Ф состоит из преобразований вида j(x)=ax+b для произвольных вещественных a, b; всякое выбранное a соответствует выбору масштаба, а b – выбору начала шкалы; пример – шкалы Цельсия и Фаренгейта для измерения температуры воздуха),

- порядка или порядковый или ординальный (Ф состоит из всех монотонно возрастающих преобразований j(x) ),

- наименований или номинальный (Ф состоит из всех взаимно-однозначных преобразований j(x)).

Откуда берется множество Ф? Разные точки зрения. Репрезентационная теория (П. Суппис, Д. Льюс и др. 1963) – из свойств отношений между объектами, соответствующими данному признаку. Например, свойства отношений «масса а больше массы б», «разница между массами а и б больше разницы между массами в и г» приводят к тому, что масса выражается в относительной шкале. Физики утверждают, что из свойств инвариантности уравнений соответствующей физической теории. Радикалы как я выводят Ф из общественной практики. Например, практика использования среднего балла по результатам тестов/экзаменов для ранжирования студентов по успеваемости: если мы признаем справедливость (=осмысленность) этих сравнений, то мы тем самым признаем, что экзаменационные оценки выражаются в интервальной шкале (это – теорема, попробуйте доказать).

6.2 Основные задачи анализа данных в связи с обогащением знаний

В международной литературе, задачи анализа данных систематизированы в соответствии со схемой, предложенной в книге Дуда и Харт, Анализ сцен и распознавание образов (1973) – главное, это задача узнавания/диагностики/классификации, а задачам факторного анализа или ранжирования места не нашлось вообще – их помещают в предобработку данных. В книге Миркин (1980) «Анализ качественных признаков и структур» я предложил более систематизированную классификацию (была включена в ГОСТ СССР). Эта классификация, недавно представленная в моем учебнике Mirkin (2011), исходит из того, что главная цель анализа данных – это обогащение теоретических представлений (знаний) об анализируемом объекте. Знания структурно – не что иное как совокупность понятий и связывающих их утверждений. Значит, есть два главных способа обогащения знаний – формирование новых понятий, признаков, и формирование новых связей между признаками. Анализ данных делает это на основе существующих признаков и данных о них. Формирование новых признаков происходит в форме агрегирования имеющихся признаков в виде ранжирования (ординальная шкала) или разбиения (номинальная шкала) или количественной комбинации (интервальная шкала). Формирование новых связей – в форме решающего правила, связывающего значения одних, целевых, признаков с значениями других, входных, признаков.

Типичные примеры таких задач можно увидеть в следующей таблице:

Колич Анализ главных компонент

Агрегирование

Номин Кластер-анализ

Ордин Ранжирование

Колич Регрессионный анализ

Связь

Номин Распознавание образов

Классификация с учителем

Ордин Ординальная регрессия

Согласно аппроксимационному подходу, любая специфическая задача анализа данных должна включать в себя два аспекта: первый, кодирование, формирование по данным Х результата А в требуемом формате (разбиение, продукция, решающее дерево и т.п.), и второй, декодирование – восстановление данных в том формате, в котором они представлены, на основе имеющегося решения, У(А). Чем точнее результат, У(А), воспроизводит данные Х, тем лучше полученное в результате анализа данных решение. Этот принцип позволяет ставить задачу так:

Исходя из данных Х, сформировать решение заданного вида А таким образом, чтобы разность Х-У(А) была как можно меньше. Если Х – сложный объект, например, матрица, минимизация разности обычно осуществляется в соответствии с принципом наименьших квадратов, как минимизация суммы квадратов разностей. По-видимому, этот принцип отражает какие-то глубинные свойства нашего мира, и что приятно, позволяет использовать теорему Пифагора: //Х//²=//У(А)//²+ //Х-У(А)//², разлагающую разброс данных на объясненную и необъясненную части, что сильно помогает при поиске и интерпретации решений.

Как обосновать квадратичный критерий? При вероятностном истолковании данных, он возникает как реализация критерия максимального правдоподобия. А без оного – можно идти по методике Гука-Ньютона – показать, что из него выводятся какие-либо другие, хорошие, вещи. Например, я показал, что подобный квадратичный анализ нечисловых признаков приводит к статистическим характеристикам, типа коэффициентов ассоциации хи-квадрат, которые популярны в статистике (из других соображений) и, кроме того, связаны с совсем казалось бы не относящимися к делу вещами типа коэффициентов нормализации данных (Mirkin 2005б 2011).

6.4. Другие парадигмы в анализе данных (классической статистики, машинного обучения, пополнения знаний, эвристического моделирования)

Классическая статистика: имеется модель изучаемого явления/процесса; данные представляют интерес лишь постольку, поскольку они могут помочь в уточнении модели и ее параметров.

Машинное обучение: объекты появляются один за одним; задача состоит в том, чтобы построить решающее правило как можно точнее прогнозирующее интересующие нас свойства.

Пополнение знаний: имеются признаки и связи между ними; данные используются для того, чтобы сформировать новые признаки и/или связи.

Эвристическое моделирование: Давайте преобразуем данные по некоторому разумному правилу и применим к реальным проблемам.

6.5 Разработка данных и концепция «интересного».

Дата майнинг (разработка данных) как направление возникло в середине 90-х, оформив сразу большие данные и задачу об анализе транзакций – списков покупок и построенных на них ассоциативных правил. В отличие от статистиков, которые оперировали ошибками первого и второго рода, разработчики данных обратили внимание на поддержку и точность. Рассмотрим, например, множества товаров А и Б, а также множества покупателей, купивших А (безотносительно к Б) или и А, и Б, соответственно, численностей Р(А) и Р(АБ). Тогда величина р(Б/А)= Р(АБ)/Р(А) (условная доля) характеризует точность логической продукции АÞБ. Если, например, р(Б/А)=0.9,

это значит, что ошибка продукции АÞБ (на материале обучения) равна 0.1 (ошибка первого рода). Но для настоящего анализа этого мало. Ведь на множестве людей предикаты А=«когда-нибудь ел огурцы» и Б=«умер» дают р(Б/А)=1, ноль ошибок ! Надо смотреть на дополнительные события в четырех-клеточной таблице

Б не Б Всего

А a b a+b

не А c d c+d

Всего a+c b+d 1

Такие таблицы очень уместны, когда речь идет о правилах обнаружения событий. Например, когда Б – правило для обнаружения события А (спам-фильтр и спам, детектор и террорист, и пр.) Ошибка первого рода: 1- р(Б/А)= b/(a+b), второго – c/(c+d). Но в ситуации транзакций, они вообще не смотрят «не А», тогда то и используется «поддержка», р(А)=a+b, а чтобы отсеять смерть от огурцов вводится концепция интересного. Хотя и могли бы использовать ошибки второго рода – но это совсем другое направление анализа, почему-то не получившее развития.