Понятие о статистике и краткие сведения из ее истории (стр. 7 из 9)

С определенной вероятностью можно судить о величине разности между генеральными и выборочными характеристиками на основе предельных теорем. Предельные теоремы исходят из нормального распределения величин. Нормальное распределение показывает, что большая часть величин сосредотачивается около генеральной средней. Около 68,3% численности выборочных средних не будет выходить за пределы

генеральной средней; 95,4% этой численности будет заключено в пределах

и 99,7% их не выйдет за пределы

. Нормальное распределение имеет довольно общий характер и показывает частоту появления ошибок данного размера средней.

2. Определение ошибок выборочного наблюдения при различных видах выборки

Расхождение между выборочной средней и генеральной средней. Теорема Чебышева-Ляпунова. Расхождения между выборочными и генеральными характеристиками называют ошибками.

Теорема Чебышева применительно к выборочному наблюдению утверждает, что ошибка репрезентативности – разность между выборочной средней и генеральной средней – при достаточно большом числе наблюдений будет сколь угодно малой, т.е.

где

- абсолютная величина расхождения между генеральной средней и выборочной средней, составляющая ошибку репрезентативности;

- среднее квадратическое отклонение вариантов выборочной средней от генеральной средней (средняя ошибка выборки). Оно зависит от колеблемости признака в генеральной совокупности

и числа отобранных единиц n:

. Эта запись показывает, что о величине расхождения можно судить лишь с определенной вероятностью, которая зависит от коэффициента доверия t. Если выбратьt=2, то вероятность того, что это расхождение не превысит

, будет не меньше чем 0,75, если t=3, то вероятность превысит 0,89 и т.д.

Теорема была доказана П.Л. Чебышевым только для независимых событий, т.е. производстве повторной выборки. Позднее академиком А.А. Марковым было доказано сохранение этого условия для зависимых событий (бесповторной выборки).

Академик А.М. Ляпунов доказал, что вероятность отклонений выборочной средней от генеральной средней при достаточно большом числе отобранных единиц подчиняется закону нормального распределения. Из теоремы Ляпунова следует, что вероятность этих отклонений при разных значениях t может определяться по формуле:

Значения этого интеграла при разных значениях t табулированы и даются в специальных таблицах. Вероятность для некоторых t (из таблицы):

при t=1 F(t)=0,683, при t=1,5 F(t)=0,866,

при t=2 F(t)=0,954, при t=2,5 F(t)=0,988,

при t=3 F(t)=0,997, при t=3,5 F(t)=0,999.

Доверительное число t указывает, что расхождение не превысит кратную ему среднюю ошибку выборки

. Если t=1, то расхождение между выборочной средней и генеральной средней не превысит

. Это может быть прочитано и так: с вероятностью 0,683 можно утверждать, что разность между выборочной и генеральной средними не превысит одной величины средней ошибки выборки. Другими словами, в 683 случаях из 1000 ошибка репрезентативности не выйдет за пределы

. С вероятностью 0,997 (довольно близкой к единице) можно ожидать, что разность между выборочной и генеральной средними не превзойдет трехкратной средней ошибки выборки.

Средняя ошибка выборки показывает, какие возможны отклонения характеристик выборочной совокупности от соответствующих характеристик генеральной совокупности. Величина

, обозначаемая

, называется предельной ошибкой выборки, которая определяется формулой

. С увеличением t увеличивается вероятность и величина ошибки.

Предельная ошибка выборки позволяет определять предельные значения характеристик генеральной совокупности при заданной вероятности и их доверительные интервалы:

Генеральная средняя (

) отличается от выборочной средней (

) на величину предельной ошибки выборки:

Это означает: с заданной вероятностью можно утверждать, что значение генеральной средней можно ожидать в пределаx от

до

, то есть что доверительные интервал (

) с заданной вероятностью заключает в себе генеральную среднюю.

Расхождение между частостью и долей. Теорема Бернулли рассматривает ошибку выборки для альтернативного признака, т.е. признака, у которого возможны только два исхода: наличие признака (1) и его отсутствие (0). Т.е. при достаточно большом объеме выборки по мере его увеличения вероятность расхождения между долей признака в выборочной совокупности w и долей признака в генеральной совокупности p будет стремиться к единице. Математически теорема Бернулли выглядит следующим образом:

Иными словами: с вероятностью, сколько угодно близкой к единице, можно утверждать, что при достаточно большом объеме выборки частость признака (выборочная доля) сколько угодно мало отличается от его вероятности (доли в генеральной совокупности).

Поскольку

, а среднее квадратическое отклонение в генеральной совокупности для альтернативного признака равно

, где q=1–p, то средняя ошибка выборки для альтернативного признака выражается следующей формулой:

Поскольку дисперсия доли признака генеральной совокупности (pq) неизвестна, то дисперсию альтернативного признака принимают за w(1–w), тогда формула средней ошибки выборки:

Предельная величина разности между частостью и долей называется предельной ошибкой выборочной доли. О ее величине можно судить, некоторой вероятностью, определив ее по формуле:

Зная выборочную долю признака (w) и предельную ошибку выборки (

), можно определить границы, в которых заключена генеральная доля p:

Средняя ошибка случайной выборки: а) повторный отбор

б) бесповторный отбор

где N – число единиц в генеральной совокупности

n –число единиц в выборочной совокупности

При механическом отборе ошибка выборки рассматривается по формуле собственно-случайной бесповторного отбора.

Средняя ошибкапропорциональной типической выборки определяется по формулам:

а) повторный отбор:

; б) бесповторный отбор:

где

- средняя из внутригрупповых дисперсий в выборочной совокупности.

Средняя ошибка серийной выборки :

а) повторный отбор:

; б) бесповторный отбор:

гдеR –общее число серий в генеральной совокупности

- число отобранных серий;

Межсерийная дисперсия вычисляется по формуле:

- групповые дисперсии,

- общая средняя