Смекни!
smekni.com

Однофакторный дисперсионный анализ (стр. 1 из 2)

Однофакторный дисперсионный анализ

В общем виде эту задачу можно поставить следующим образом: пусть мы наблюдаем m независимых нормально распределенных случайных величин

(1) предполагая, что все они имеют одинаковую дисперсию
(эту гипотезу можно проверить с помощью F-критерия). Средние значения случайных величин
(2) вообще говоря, различны. Пусть в одинаковых экспериментальных условиях над каждой из переменных (1) производится некоторая серия наблюдений (для простоты ограничимся случаем равночисленных наблюдений, хотя это обстоятельство несущественно для теории). Данные k-й серии пусть будут
(k=1,2,…..,m) (3).

Опираясь на эти статистические данные, мы хотим проверить гипотезу, согласно которой средние значения (2) равны, т.е. a1=a2=…..=am(4)

Если проверяемая гипотеза, называемая нулевой гипотезой, верна. поставив средние в каждой серии, мы не должны получить ш расхождения между ними; если такое расхождение обнаружено то гипотезу (3) приходится отбросить.

Примером подобной ситуации может служить статистическое исследование урожайности сельскохозяйственной культуры в зависимости от 1 из m сортов почвы при некотором способе ее обработки. Истинное значение урожайности для каждого из m сортов почвы неизвестно, а экспериментально наблюдаемые урожайности (3) в каждом из n экспериментов на этих сортах почвы содержат ошибки, возникающие из-за тех или иных случайных причин. Будет ли одинаковой урожайность на всех сортах почвы, если предположить, что измерения (3) проводились с ‚одинаковой точностью и в одинаковых условиях? Иначе говоря, мы хотим проверить влияние одного фактора сорта почвы — на урожайность .сельскохозяйственной культуры. В другой постановке та же задача возникает, если мы хотим проверить, насколько влияют и влияют ли вообще на плодородие почвы источники загрязнения. В этом случае сорт почвы может меняться и давать разную урожайность в зависимости от удаленности обрабатываемого участка земли от источника загрязнения.

Таблица результатов измерений будет иметь следующий вид (табл. 1):

Результаты измерений урожайности


Номер сорта почвы
Номер эксперимента
1 2 3 n
1 x11 X12 X13 X1n
2 X21 X22 X23 X2n
3 X31 X32 X33 X3n
m Xm1 Xm2 Xm3 xnm

Обозначим через

среднее арифметическое из n наблюдаемых урожайностей на почве первого сорта, через
— среднее из урожайностей в почве второго сорта и т. д., так, что

,
…,

Систематические ошибки наблюдений урожайностей на разных почвах неодинаковы, то мы должны ожидать повышенного рассеивания выборочных средних.

Обозначим через

общее среднее арифметическое всех nm измерений так, что
.(5)

Суммирование по k при постоянном i дает сумму по всем наблюдениям i-той серии (т.е. по i-му сорту почвы). Дальнейшее суммирование по i дает итог по всем сортам почвы. Так как

, то
.

В то же время

,(6)

причем

.

Но

, так как представляет собой сумму отклонений наблюдений i-й серии от средней этой же серии и потому S=0. (7)

По этому приняв во внимание, что

,(8)

мы можем основное тождество (6) записать в следующем виде

, (9) или в сокращенном виде
,(10)

где

,
,

Таким образом, общая сумма квадратов ‚ распадается на две составные части, первая из которых связана с оценкой дисперсии урожайности между сортами почвы, а вторая — с оценкой дисперсии внутри всех сор почвы.

Предположим теперь, что гипотеза (4) верна, и потому нормальные распределения всех величин

(урожайностей) тождественны. имеют одинаковые среднее значение и дисперсию
.Тогда же nm наблюдений можно рассматривать как выборку из одной и той же нормальной совокупности
.

Можно показать, что при этой гипотезе статистики

,
и
распределены по закону
соответственно с
,
,
степенями свободы, а по тому Q, Q1, Q2 могут быть использованы в этом случае для оценки
. Эта оценка может быть поведена с помощью несокращенных характеристик

,
,
.

При более детальном изучение показывает, что Q1 и Q2 при нашей гипотезе независимы друг от друга. Заметим, этот вывод справедлив при любых предположениях относительно ai.

Из сказанного вытекает, что критерий

(11) в гипотезе (4) будет следовать F-распределению с
и
степенями свободы. Выбирая q%-й уровень значимости при известных
,
, найдем по таблице 20 в приложение соответствующий q% предел
так, что P(F>Fq)
.

Пусть с другой стороны наша гипотеза неверна и средние значения (2) не равны друг другу, но параметр

во всехm совокупностях один и тот же, когда сумма Q2, не изменяющаяся при замене
на
, имеет, как можно доказать. По-прежнему распределение
и
степенями свободы,
.

По-прежнему является несмещенной оценкой для

. В то же время числитель F в (7,14) учитывает систематические расхождения между средними значениями ai, и имеет тенденцию расти и становится тем больше, чем больше отклонения от предполагаемого равенства значений ai. Поэтому правила проверки гипотезы дается в следующем виде: a1=a2=…..=am принимается, если
; в этом случае
и
несмещенными оценками параметров a и
нормально распределенных случайных величин (1).