Смекни!
smekni.com

Основные понятия статистики (стр. 4 из 13)

Теорема (Теорема Пуассона). Если производится п независимых опытов и вероятность появления события А в каждом опыте различна и равна рi, то при увеличении п частота события А сходится по вероятности к среднему арифметическому вероятностей рi.

Теорема даёт возможность определить примерно относительную частоту появления события А.

3. Предельные теоремы теории вероятностей. Центральная предельная теорема Ляпунова

Как уже говорилось, при достаточно большом количестве испытаний, поставленных в одинаковых условиях, характеристики случайных событий и случайных величин становятся почти неслучайными. Это позволяет использовать результаты наблюдений случайных событий для предсказания исхода того или иного опыта.

Предельные теоремы теории вероятностей устанавливают соответствие между теоретическими и экспериментальными характеристиками случайных величин при большом количестве испытаний.

В рассмотренном выше законе больших чисел нечего не говорилось о законе распределения случайных величин. Поставим задачу нахождения предельного закона распределения суммы

, когда число слагаемых п неограниченно возрастает. Эту задачу решает Центральная предельная теорема Ляпунова.

В зависимости от условий распределения случайных величин Xi, образующих сумму, возможны различные формулировки центральной предельной теоремы. Рассмотрим один из вариантов.

Допустим, что случайные величины Xi взаимно независимы и одинаково распределены.

Теорема. Если случайные величины Xi взаимно независимы и имеют один и тот же закон распределения с математическим ожиданием т и дисперсией s2, причем существует третий абсолютный момент n3, то при неограниченном увеличении числа испытаний п закон распределения суммы

неограниченно приближается к нормальному.

Контрольные вопросы:

1. Сформулируйте теорему больших чисел Бернулли.

2. Сформулируйте теорему больших чисел Чебышева.

3. Сформулируйте теорему A.M. Ляпунова.


Раздел 2. Математическая статистика

Аннотация

Математическая статистика изучает, как и теория вероятностей, случайные явления, использует одинаковые с ней определения, понятия и методы и основана на той же самой аксиоматике А.Н. Колмогорова. Однако задачи, решаемые математической статистикой , носят специфический характер.

Теория вероятностей исследует явления, заданные полностью их моделью, и выявляет еще до опыта те статистические закономерности, которые будут иметь место после его проведения

В математической статистике вероятностная модель явления определена с точностью до неизвестных параметров. Отсутствие сведений о параметрах компенсируется тем, что позволяется проводить «пробные» испытания и на их основе восстанавливать недостающую информацию


Тема 2.1. Описательная статистика

1. Два основных направления исследований в статистике.

2. Основные категории статистики.

3. Методы первичного анализа экспериментальных данных. Построение вариационных рядов и определение их основных характеристик

4. Графическое представление вариационных рядов.

1. Два основных направления исследований в статистике

В математической статистике принято выделять два направления: параметрическая статистика и непараметрическая (дескриптивная) статистика.

Первое направление связано с оценкой (определением) неизвестных параметров законов распределения случайных величин на основе экспериментальных наблюдений за значениями случайной величины. Поскольку в качестве оценки выступает число, а числу на числовой прямой соответствует точка, такие оценки называют точечными.

Поскольку точечная оценка получается в результате математических операций над полученными из эксперимента значениями случайной величины она (оценка) сама есть случайная величина, имеющая определенную функцию распределения. Следовательно, точечная оценка должна быть дополнена интервалом, содержащим точечную оценку и возможный разброс её (оценки) значений, которые допустим с наперёд заданной вероятностью, которую называют доверительной. Поэтому наряду с точечными оценками в математической статистике принято определять интервальные оценки или , иными словами, доверительные интервалы, опираясь на уровень доверия или доверительную вероятность

Второе направление в математической статистике связано с проверкой некоторых априорных предположений или статистических гипотез об основных характеристиках экспериментально полученных распределениях случайных величин. Принято называть одну из этих гипотез ( как правило, более важную с практической точки зрения) основной H0, а вторую альтернативной или конкурирующей H1. Индекс 0 буквы Hуказывает, что гипотеза H0 предполагает несущественное отличие между гипотетическим и истинным значении оцениваемых параметрах, и, наоборот, индекс 1 указывает на существенную разницу между оценкой и истинном значением статистического параметра. Задача проверки статистических гипотез состоит в выборе правила или критерия, позволяющего по результатам наблюдений проверить, справедливость этих гипотез и принять одну из них. Так же, как и при точечной оценке неизвестных параметров, мы не застрахованы от неверного решения, так называемых ошибок первого и второго рода. Ошибка первого рода состоит в том, что мы принимаем конкурирующую гипотезу H1, в то время, как справедлива основная гипотеза H0. Аналогично определяется ошибка второго рода: принимаем основная гипотезу H0, в то время, как справедлива конкурирующая гипотеза H1.

В математической статистике исследуются также байесовские и небайесовские модели. Байесовская модель возникает тогда, когда неизвестный параметр является случайной величиной и имеется априорная информация о его распределении. При байесовском подходе на основе опытных данных априорные вероятности пересчитываются в апостериорные. Этот подход использует формулу Байеса.

Небайесовские модели появляются тогда, когда неизвестный параметр нельзя считать случайной величиной и все статистические выводы приходится делать, опираясь только на результаты «пробных» испытаний. Именно такие модели в основном рассматриваются в математической статистике.

В математической статистике употребляют также понятие параметрической и непараметрической модели. Параметрическая модель возникает тогда, когда нам известен вид функции распределения наблюдаемого признака, но неизвестны её параметры и необходимо по результатам испытаний определить эти параметры (задача оценки неизвестного параметра) или проверить гипотезу о принадлежности его некоторому заранее выделенному множеству значений (задача проверки статистических гипотез). Непараметрическая модель – когда неизвестен вид закона распределения и необходимо с помощью специальных критериев определить к какому классу распределений он относится.

2. Основные категории статистики

Основными категориями математической статистики являются: генеральная совокупность, выборка, теоретическая и эмпирическая функции распределения.

Определение 1. Пусть имеется совокупность N объектов любой природы, над которыми проводятся наблюдения или совокупность всех возможных наблюдений. Каждое из наблюдений характеризуется определенным значением хi(среди которых могут быть и одинаковые) некоторого общего для всех объектов признака (характеристики) Х. Назовём множество всех изучаемых объектов генеральной совокупностью, где N- объём генеральной совокупности.

В математической статистике обычно рассматривается генеральная совокупность бесконечно большого объёма.

Определение 2. Выборочной совокупностью или выборкой назовем nобъектов, отобранных из генеральной совокупности и подвергнутые исследованию, число n – объёмом выборки.

Выборка должна обладать свойством репрезентативности, В силу закона больших чисел, можно утверждать, что выборка репрезентативна, если каждый её объект выбран из генеральной совокупности случайным образом, т.е. все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку.

Определение 3. Эмпирическая функция распределения. Пусть из генеральной совокупности извлечена выборка объёма n , причём количественный признак х1 наблюдался n1 раз, …хk - nkраз. Очевидно,

.

Наблюдаемые значения количественного признака хi называются вариантами, а ранжированная (записанная в порядке возрастания) последовательность вариант,, - вариационным рядом. Если исследуемый признак принимает дискретные значения, то такой ряд называется дискретным вариационным рядом; если же значения признака являются непрерывными, то вводят интервалы значений признака [хi, хi+1 ] и вариационный ряд называют интервальным. В вычислительных процедурах с интервальными вариационными рядами интервалы [хi, хi+1 ] заменяются серединами интервалов – х*i.

Числа ni называются частотами, а отношение ni к объёму выборки n –относительной частотой. В случае дискретного ряда ni – число повторения значения признака хi , в случае же интервального вариационного ряда ni число вариант, попавших в интервал [хi, хi+1 ]

Сумма относительных частот

Соответствие между вариантами, записанных в порядке возрастания и относительными частотами называется эмпирическим (статистическим) распределением выборки


Х х1 х2 ….. хк
P* p1* p2* ….. pк*

Существует полная аналогия между эмпирическим распределением и законом распределения дискретной случайной величины, но в данном случае вместо значений случайной величины фигурируют варианты, а вместо вероятностей – относительные частоты. Если обозначить n(x) – число вариант, меньших x, то эмпирическая функция распределения будет иметь вид: