Рассматривается проблема оценки близости предельных распределений статистик и распределений, соответствующих конечным объемам выборок. При каких объемах выборок уже можно пользоваться предельными распределениями? Каков точный смысл термина "можно" в предыдущей фразе? Основное внимание уделяется переходу от точных формул допредельных распределений к пределу и применению метода статистических испытаний (Монте-Карло). Обсуждаются "подводные камни" на пути исследователя в рассматриваемой области.
1. Асимптотическая математическая статистика
и практика анализа статистических данных
Как мы обычно подходим к обработке реальных данных в конкретной прикладной задаче? Первым делом строим статистическую модель. Если мы хотим перенести выводы с совокупности результатов наблюдений на более широкую совокупность, например, предсказать что-либо, то рассматриваем, как правило, вероятностно-статистическую модель. Например, традиционную модель выборки, в которой результаты наблюдений - реализации независимых (в совокупности) одинаково распределенных случайных величин. Очевидно, любая модель лишь приближенно соответствует реальности. В частности, естественно ожидать, что распределения результатов наблюдений несколько отличаются друг от друга, а сами результаты связаны между собой, хотя и слабо. И эти ожидания во многих конкретных случаях оправдываются (в терминах конкретной прикладной ситуации см. об этом, например, в монографии [1]).
Итак, первый этап - переход от реальной ситуации к математической модели. Далее - неожиданность: на настоящем этапе своего развития математическая теория статистики зачастую не позволяет провести необходимые исследования для имеющихся объемов выборок. Более того, отдельные математики пытаются оправдать свой отрыв от практики соображениями о структуре этой теории, на первый взгляд убедительными. Неосторожная давняя фраза Б. В. Гнеденко и А. Н. Колмогорова: "Познавательная ценность теории вероятностей раскрывается только предельными теоремами" [2] взята на вооружение и более близкими к нам по времени авторами. Так, И. А. Ибрагимов и Р. З. Хасьминский пишут: "Решение неасимптотических задач оценивания, хотя и весьма важное само по себе, как правило, не может являться объектом достаточно общей математической теории. Более того, соответствующее решение часто зависит от конкретного типа распределения, объема выборки и т. д. Так, теория малых выборок из нормального закона будет отличаться от теории малых выборок из закона Пуассона" [3, с.7].
Согласно цитированным и подобным им авторам, основное содержание математической теории статистики - предельные теоремы, полученные в предположении, что объемы рассматриваемых выборок стремятся к бесконечности. Эти теоремы опираются на предельные соотношения теории вероятностей, типа Закона Больших Чисел и Центральной Предельной Теоремы. Ясно, что сами по себе подобные утверждения относятся к математике, т. е. к сфере чистой абстракции, и не могут быть непосредственно применены для анализа реальных данных. Их использование опирается на важное предположение: "При данном объеме выборки достаточно точными являются асимптотические формулы. "
Конечно, в качестве первого приближения представляется естественным воспользоваться асимптотическими формулами, не тратя сил на анализ их точности. Но это - лишь начало долгой цепи исследований. Как же обычно преодолевают разрыв между результатами асимптотической математической статистики и потребностями практики статистического анализа данных? Какие "подводные камни" подстерегают на этом пути? Обсуждению этих вопросов и посвящена настоящая статья.
2. Точные формулы и асимптотика
Начнем с наиболее продвинутой в математическом плане ситуации, когда для статистики известны как предельное распределение, так и распределения при конечных объемах выборки.
Примером является двухвыборочная односторонняя статистика Н.В.Смирнова. Рассмотрим две независимые выборки объемов m и n из непрерывных функций распределения F(x) и G(x) соответственно. Для проверки гипотезы однородности двух выборок
H0 : F(x) = G(x) для всех действительных чисел x
в 1939 г. Н.В.Смирнов в статье [4] предложил использовать статистику
D+(m,n) = sup ( Fm(x) - Gn(x) ) ,
где супремум берется по всем действительным числам x. Для обсуждения проблемы соотношения точных и предельных результатов ограничимся случаем равных объемов выборок, т.е. m = n. Положим
H(n, t) = P ( D+(n,n) $ t n - 1/2) .
В цитированной статье [4] Н,В. Смирнов показал, что при безграничном возрастании объема выборки n вероятность H(n, t) стремится к exp ( - t 2 ).
В работе [5] 1951 г. Б.В.Гнеденко и В.С.Королюк показали, что при целом с = t n1/2 (именно при таких t вероятность H(n, t) как функция t имеет скачки, поскольку статистика Смирнова D+(n,n) кратна 1/ n ) рассматриваемая вероятность H(n, t) выражается через биномиальные коэффициенты, а именно,
(1).К сожалению, непосредственные расчеты по формуле (1) возможны лишь при сравнительно небольших объемах выборок, поскольку величина n!.уже при n=100 имеет более 200 цифр и не может быть без преобразований использована в вычислениях. Следовательно, наличие точной формулы для интересующей нас вероятности не снимает необходимости использования предельного распределения и изучения точности приближения с его помощью.
Широко известная формула Стирлинга для гамма-функции и, в частности, для факториалов позволяет преобразовать последнее выражение в асимптотическиое разложение, т.е. построить бесконечный степенной ряд (по степеням n ) такой что каждая следующая частичная сумма дает все более точное приближение для интересующей нас вероятности H(x, t) . Это и было сделано в работе А.А.Боровкова [6], опубликованной в 1962 г. Большое количество подобных разложений для различных статистических задач приведено в работах [7-9] В.М.Калинина и О.В. Шалаевского в конце 60-х - начале 70-х годов. (Интересно отметить, что асимптотические разложения в ряде случаев расходятся, т.е. остаточные члены имеют нетривиальную природу.)
В наших работах конца семидесятых годов была сделана попытка теоретически оценить остаточный член второго порядка. Итоги подведены в статье [10] и монографии [11, § 2.2, с.37-45]. Справедливо равенство
H(n, t) = exp ( - t 2 ).(1 + f(t)/n + g(n,t)/ n2 ),
где
f(t) = t2 (1/2 - t2/ / 6 ).
Целью указанных работ было получение равномерных по n, t оценок остаточного члена второго порядка g(n,t) сверху и снизу в области, задаваемой условиями
0 < t n - 1/2 < А, 0 < t < t max , n $ n0 . (2)
С помощью длинных цепочек оценок остаточных членов в формулах, получаемых при преобразовании формулы (1) к предельному виду, сформулированная выше цель была достигнута, и для различных наборов параметров А, t max , n0 получены равномерные по n, t оценки остаточного члена второго порядка g(n,t) сверху и снизу в области (2). Так, например, при А = 0,5, t max = 1,73, n0 = 8 нижняя граница равна (- 0,71), а верхняя есть 2,65.
Основными недостатками такого подхода являются являются , во первых, зависимость оценок от параметров А, t max , n0 , задающих границы областей, во-вторых, завышение оценок, иногда в сотни раз, обусловленное желанием получить равномерные оценки по области (оценкой реальной погрешности в точке является значение следующего члена асимптотического разложения).
Поэтому при составлении рассчитанной на практическое использование методики [12] проверки однородности двух выборок с помощью статистики Смирнова мы перешли на другую методологию (назовем ее "методологией заданной точности"), которую кратко можно описать следующим образом.
а) Выбирается достаточно малое число р, например р = 0,05 или р = 0,20.
б) Приводятся точные значения H(n, t) для всех значений n таких, что
| H(n, t) - exp ( - t 2 ) | > p exp ( - t 2 ) .
в) Если же последнее неравенство не выполнено, то предлагается пользоваться вместо H(n, t) предельным значением exp ( - t 2 ).
Таким образом, принятая нами в методике [12] методология предполагает интенсивное использование вычислительной техники. Результат расчетов - граничные значения объемов выборок n(p,t) такие, что при меньших значениях выброк рекомендуется пользоваться точными значениями, а при больших - предельными, - описывается таблицей, а не формулой. Отметим, что при построении реальных таблиц не обойтись без выбора того или иного конкретного значения р, задающего объемы таблиц.
3. Оценки скорости сходимости
Теоретические оценки скорости сходимости в различных задачах математической статистики иногда формулируются в весьма абстрактном виде. Так, в 60-70-х годах была популярна задача оценки скорости сходимости распределения классической статистики омега-квадрат (Крамера-Мизеса-Смирнова). Для максимума модуля допредельной и предельной функций распределения этой статистики различные авторы доказывали, что для любого e>0 существует константа С(e) такая, что упомянутый максимум не превосходит С(e) n - w + e . Прогресс состоял в увеличении константы w. Сформулированный выше результат был доказал последовательно для w = 1/10, 1/6, 1/5, 1/4, 1/3, 1/2 и 1 (подробнее история этих исследований рассказана в § 2.3 монографии [11]).
Конечно, все эти исследования не могли дать конкретных практических рекомендаций. Однако необходимой исходной точкой является само существование предельного распределения. Представим себе, что некто, не зная, что у распределения Коши нет математического ожидания, моделирует выборочные средние арифметические наблюдений из этого распределения. Ясно, что его попытки оценить скорость сходимости выборочных средних к пределу обречены на провал.
Последовательное улучшение теоретических оценок скорости сходимости дает надежду на быструю реальную сходимость. Действительно, как показано в статье [13], предельным распределением для указанной статистики можно пользоваться уже при объеме выборки, равном 4.