ЕЛЕМЕНТИ ДИСПЕРСІЙНОГО АНАЛІЗУ
І ТЕОРІЇ КОРЕЛЯЦІЇ
Вступ
У більшості розділів математичної статистики передбачається, що кожний із усіх численних компонентів (факторів), які визначають характер поведінки випадкової величини, вносить у формування її значення дуже малий неконтрольований внесок, більш-менш однаковий за потужністю. На відміну від них у дисперсійному аналізі та у теорії кореляції досліджуються випадки наявності серед цих факторів величин, що є домінуючими у тій чи у іншій ступені аж впритул до необхідності їх інтерпретації як також випадкових величин і з'ясування їхнього взаємозв'язку з основною випадковою величиною.
1 Сутність і задачі дисперсійного аналізу. Однофакторний дисперсійний аналіз
Нехай є
груп сукупностей, кожна з яких характеризується випадковою величиною . Це можуть бути підмножини однієї генеральної сукупності чи різні генеральні сукупності. При цьому кожна група сукупностей відповідає визначеному рівню досліджуваного фактора ( , , , ... , ), який якось впливає на випадкову величину . Рівні фактора можуть бути фіксованими (обраними і визначеними заздалегідь) чи випадковими, тобто такими, коли кількісний рівень фактора визначається випадковим чином. Крім того, рівні фактора можуть не мати кількісної міри, а розрізнятися між собою тільки якісно.Введемо наступні основні обмеження, що накладаються на розглянуту модель:
– випадкові величини
, , , ... , у кожній групі розподілені нормально з математичними сподіваннями , , , , і дисперсіями , , , , ;– дисперсії у групах є рівними між собою, тобто
;– вибірки, що організовані з
груп сукупностей, є незалежними.Будь-яке значення випадкової величини
(кількісної характеристики розглянутих сукупностей) може бути поданим у вигляді наступної лінійної моделі (1)де:
– -е значення у групі (при рівні фактора ); – компонента, що обумовлена рівнем фактора (факторна компонента); – постійний компонент, що залежить тільки від природи випадкової величини і є незалежним від рівня фактора ; – "похибка" лінійної моделі, що подає собою залишок, який утвориться після вирахування і з усього результату випробування, тобто випадкова компонента, що враховує вплив усіх інших факторів, крім розглянутого чинника .Модель (1) відображає те, що у формуванні значення
беруть участь дві компоненти: факторна і випадкова. Якщо припустити, що випадкова компонента відсутня і для різних рівнів фактора отримано по одному невипадковому значенню , , , ... , , то як показник впливу фактора можна застосувати нормовану суму квадратів відхилень від їх середнього значення (2)де
Цю величину, подібну до (2), можна назвати дисперсією фактора
(факторною дисперсією), хоча вона не є характеристикою випадкової величини.Порівнюючи цю факторну дисперсію з дисперсією випадкової компоненти, що називають дисперсією відтворюваності
, можна зробити висновок про значущість (чи незначущість) їхньої відмінності.Якщо факторна дисперсія і дисперсія відтворюваності розрізняються значущо, то слід визнати вплив досліджуваного фактора на результати випробування, а якщо вони розрізняються суттєво, то роблять статистичний висновок про те, що вплив фактора є несуттєвим.
При цьому вивчати вплив фактора
на наслідки випробувань слід не на результатах окремих дослідів, а на середніх значеннях, отриманих при фіксованих рівнях фактора, тому що дисперсії середніх менше дисперсії самої випадкової величини і вплив фактора (якщо він є) проявиться більш наочно.Таким чином, за нульову гіпотезу, що буде перевірятися за допомогою дисперсійного аналізу, висувається статистична гіпотеза про рівність математичних сподівань по рівнях фактора
: (3)проти альтернативної гіпотези
: "не менш двох математичних сподівань є різними".Припустимо, що для кожного з
рівнів фактора ( , , , ... , ) отримано значень випадкової величини , що характеризує досліджувану сукупність (усього значень). Результати випробувань подані в таблиці 1.Обчислимо середнє
по вимірах окремо для кожного рівня фактора, а також загальну середню за всіма спостереженнями , (4)Таблиця 1
Номер випробування | Рівень фактора | |||||
... | ... | |||||
1 | ... | |||||
2 | ... | |||||
... | ||||||
... | ... | |||||
... | ||||||
... | ... | |||||
... | ... |
Повну суму квадратів відхилень усіх значень від загальної середньої, при обчисленні якої спільно врахуються факторна та випадкова компоненти, можна розкласти на суму двох складових, що подають ці фактори роздільно