СТРУКТУРА СТАТИСТИКИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ
Рассматривается структура основополагающего для разработки АРМ "МАТЭК" направления научно-практических исследований, известного под названием "статистика объектов нечисловой природы".
Термин "статистика объектов нечисловой природы" впервые появился в 1979 г. в монографии [1]. В том же году в статье [2] была сформулирована программа развития этого нового направления прикладной математической статистики, которая к 1985 г. в основном была реализована (см. обзоры [3-5]).
Статистика объектов нечисловой природы как самостоятельное научное направление была выделена в СССР. В 80-е годы существенно возрос интерес к этой тематике и у зарубежных исследователей. Это отражено в отчетах [6-7] о Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли, состоявшемся в сентябре 1986 г. в Ташкенте. Статистика объектов нечисловой природы используется в нормативно-технической и методической документации (ГОСТ 24660-81 и другие стандарты по статистическому приемочному контролю по альтернативному признаку, рекомендации [8] и др.). Ее применение позволяет получить существенный технико-экономический эффект (см. например, сводку [9]).
Однако тематика статистики объектов нечисловой природы обсуждалась до сих пор в основном кругу развивающих ее специалистов, в результате она недостаточно отражена в монографической литературе. Цель настоящего пункта отчета - дать введение в статистику объектов нечисловой природы, выделить ее структуру, указать основные идеи, результаты и публикации.
Объектами нечисловой природы (см. также пункты 2. 3 и 2. 4 настоящего отчета) называют элементы пространств, не являющихся линейными. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности [10]), множества, последовательности символов (тексты). Объекты нечисловой природы нельзя складывать и умножать на числа, не теряя при этом содержательного смысла. Этим они отличаются от издавна используемых в прикладной статистики (в качестве элементов выборок) чисел, векторов и функций.
Прикладную статистику по виду статистических данных принято делить [4, 8] на следующие направления:
статистика случайных величин (одномерная статистика);
многомерный статистический анализ;
статистика временных рядов и случайных процессов; статистика объектов нечисловой природы.
При создании теории вероятностей и математической статистики исторически первыми были рассмотрены объекты нечисловой природы - белые и черные шары в урне. На основе соответствующих вероятностных моделей были введены биномиальное, гипергеометрическое и другие распределения, получены теоремы Муавра-Лапласа, Пуассона и др. Современное развитие этой тематики привело, в частности, к созданию теории статистического контроля качества продукции по альтернативному признаку (годен - не годен) в работах А. Н. Колмогорова [11], Б. В. Гнеденко [12], Ю. К. Беляева [13], Я. П. Лумельского [14] и многих других.
В семидесятых годах в связи с запросами практики весьма усилился интерес к статистическому анализу нечисловых данных. Московская группа, организованная Ю. Н. Тюриным и другими специалистами вокруг семинара "Математические методы в экспертных оценках", развивала в основном вероятностную статистику нечисловых данных [15]. Были установлены разнообразные связи между различными видами объектов нечисловой природы и изучены свойства этих объектов. Московской группой выпущены, в частности, сборники [16 - 22] и обзоры [23, 24]. Хотя в названиях многих из этих изданий стоят слова "экспертные оценки", анализ содержания сборников показывает, что подавляющая часть статей посвящена математико-статистическим вопросам, а не проблемам проведения экспертиз. Частое употребление указанных слов отражает лишь один из импульсов, стимулирующих развитие статистики объектов нечисловой природы и идущих от запросов практики. При этом необходимо подчеркнуть, что полученные результаты могут и должны активно использоваться в теории и практике экспертных оценок, в особенности при разработке АРМ "МАТЭК".
Новосибирская группа (Б. Г. Миркин [25-28], Г. С. Лобов [29] и др.), как правило, не использовала вероятностные модели, т. е. вела исследования в рамках анализа данных (в том смысле, как этот термин разъясняется в работах [4, 8]). В московской группе в рамках анализа данных также велись работы, в частности, Б. Г. Литваком [30]. Исследования по статистике объектов нечисловой природы выполнялись также в Ленинграде, Ереване, Киеве, Таллине, Тарту, Красноярске, Минске, Днепропетровске, Владивостоке, Калинине и других центрах, некоторые из них будут упомянуты ниже (см. также материалы конференций по анализу нечисловых данных [31, 32]).
. Внутреннее деление статистики объектов нечисловой природы
Внутри рассматриваемого направления прикладной статистики выделим следующие области:
1. Статистика конкретных видов объектов нечисловой природы;
2. Статистика в пространствах общей (произвольной) природы;
3. Применение идей, подходов и результатов статистики объектов нечисловой природы в классических областях прикладной статистики.
Единство рассматриваемому направлению придает прежде всего вторая составляющая, позволяющая с единой точки зрения подходить к статистическим задачам описания данных, оценивания, проверки гипотез при рассмотрении выборки, элементы которой имеют ту или иную конкретную природу. Внутри первой составляющей рассмотрим [33]:
1. 1) теорию измерений;
1. 2) статистику бинарных отношений;
1. 3) теорию люсианов (бернуллиевских векторов);
1. 4) статистику случайных множеств;
1. 5) статистику нечетких множеств;
1. 6) многомерное шкалирование;
1. 7) аксиоматическое введение метрик.
Перечисленные разделы тесно связаны друг с другом, как продемонстрировано, в частности, в работах [1, 4, 24]. Вне данного перечня остались работы по хорошо развитым классическим областям - статистическому контролю [11-14], таблицам сопряженности [34], а также по анализу текстов [35, 36] и некоторые другие [25-29]. Таким образом, рассмотрим постановки 1970-90 гг. вероятностной статистики объектов нечисловой природы.
. Статистика в пространствах общей природы
Пусть
-элементы пространства , не являющегося линейным. Как определить среднее значение для ? Поскольку нельзя складывать элементы , сравнивать их по величине, то необходимы подходы, принципиально новые по сравнению с классическими. В работе [37] предложено использовать показатель различия (содержательный смысл: чем больше , тем больше различаются и ) и определять среднее как решение экстремальной задачи . (1)Таким образом
- это совокупность всех тех , для которых функциядостигает минимума на
.Для классического случая
при имеем: , а при среднее совпадает с выборочной медианой (при нечетном объеме выборки; а при четном - является отрезком с концами в двух средних элементах вариационного ряда).Для ряда конкретных объектов среднее как решение экстремальной задачи вводилось рядом авторов. В 1929 г. Джини и Гальвани [38] применили такой подход для усреднения точек на плоскости и в пространстве (см. также [39]). Кемени [40-42] решение задачи (1) называл медианой или средним для выборки, состоящей из ранжировок. При моделировании лесных пожаров, согласно выражению (1), было введено "среднеуклоняемое множество" [43]. Общее определение среднего (1) рассмотрено нами в работах [2, 37].
Основной результат, связанный со средними (1) - аналог закона больших чисел. Пусть.
- независимые одинаково распределенные случайные элементы со значениями в пространстве общей природы (определения здесь и далее - согласно Математической Энциклопедии [44]). Теоретическим средним, или математическим ожиданием, назовем [37] . (3)Закон больших чисел состоит в сходимости.
к . при . Поскольку и эмпирическое, и теоретическое средние - множества, то понятие сходимости требует уточнения.