Статистичні гіпотези та їх перевірка
Про перевагу тієї або іншої з порівнюваних груп судять, як правило, з різниці між середніми, середніми частками або іншими вибірковими показниками — величинами випадковими і такими, що є статистичними оцінками відповідних генеральних показників.
Питання про достовірність відмінностей розв'язується зазвичай на основі перевірки за вибірковими характеристиками тієї або іншої статистичної гіпотези.
В області клінічних досліджень широке використання отримала так звана нульова гіпотеза Н0 . Значення її зводиться до припущення, що різниця між генеральними параметрами порівнюваних груп дорівнює нулю і відмінності, що спостерігаються між вибірковими характеристиками, носять виключно випадковий характер.
Так, наприклад, якщо одна вибірка була вилучена з нормального розподілу генеральної сукупності з параметрами М1 і a1, а інша — з сукупності з параметрами M2 і а2, то нульова гіпотеза полягає в тому, що Ml = M2, тобто М1 — M2 = 0. Протилежна нульовій – альтернативна гіпотеза – полягає в тому, що середні вважаються або просто нерівними М1—M2≠0 (двосторонній тест), або дослідник орієнтований у напрямі ефекту одного методу над іншим, а можливість переваги іншого виключається, наприклад М1>M2 (односторонній тест).
При такому підході не ставиться задача кількісної оцінки наявних відмінностей, достатньо лише перевірити, чи належать обидві групи з певною імовірністю до різних генеральних сукупностей. Слід зазначити, що під час вирішення інших статистичних задач нульова гіпотеза матиме інше формулювання.
Перевіряється статистична гіпотеза за допомогою величин або, іншими словами, статистик, функції розподілу яких відомі і табульовані (наприклад,
t-розподіл Стьюдента, розподіл Хі-квадрат та ін.).
Ці величини у кожному конкретному випадку дозволяють виявити, чи задовольняють вибіркові показники висунутій гіпотезі. Процедура перевірки гіпотези була пов'язана з об'ємом вибірки (або відповідним числом ступенів свободи) і рівнем значущості а.Рівень значущості або вірогідність помилки I роду, щодопускається під час оцінювання прийнятої гіпотези, може розрізнятися (5, 1, 0,1%), але в медико-біологічних додатках, якщо спеціально не обумовлено інше значення, він зазвичай приймається рівним 5%.
Якщо результати значущі на рівні 1—5%, зазвичай говорять про наявність статистичної значущості, на рівні менше 1% – про високу статистичну значущість.
З рівнем значущості була пов'язана величина, названа ступенем недовіри до нульової гіпотези.Вона є величиною, що доповнює рівень значущості до одиниці (1-а).
Близький до нуля рівень значущості, а отже, близький до одиниці ступінь недовіри інтерпретуються як вагомий довід проти нульової гіпотези. Близький до одиниці рівень значущості показує, що ступінь недовіри близький до нуля, тобто доводи проти Н0 слабкі, що вказує на узгодженість наявних даних з нульовою гіпотезою.
Важливим є також питання про справедливість нульової гіпотези. Для оцінки справедливості Н0 розраховується р-значення. Можна сказати, що воно оцінює імовірність при багатократному повторенні дослідження отримання такого ж або ще більш екстремального значення критерію за умови справедливості нульової гіпотези, тобто за відсутності відмінностей між порівнюваними групами.
Якщо в результаті перевірки нульової гіпотези вона була знехтувана на рівні значущості а, то для відображення наявності статистично значущих відмінностей результат порівняння може бути записаний у вигляді р<а. Це означає, що при справедливості нульової гіпотези помилка порівняння можлива не більш, ніж в а•100% випадків, а отже, малоймовірна.
Проте запис вигляду Р<0,05, що часто використовується, означає лише те, що рівень значущості результатів не більше, ніж 5%. Набагато більше інформації про ступінь значущості полягатиме, наприклад, у записі подвійної нерівності 0,01 < р < 0,05.
Р-значення може задаватися не тільки нерівністю. Його значення можна розрахувати точно, і ця процедура є в деякому розумінні зворотною до звичайної процедури перевірки гіпотези.
Для цього розраховується величина тестової статистики, а потім, наприклад, за таблицями, що відносяться до даного критерію (або в результаті підстановки значення статистики критерію в її функцію розподілу) визначається рівень імовірності, відповідний оціненому значенню тестової статистики.
При такій процедурі, приймаючи рішення відкинути (прийняти) гіпотезу Н0, ми вказуємо точне значення рівня, яке дорівнює p-значенню, на якому відбувається відхилення (прийняття) нульової гіпотези. Вказівка точного p-значення є більш інформативною, ніж оформлення результатів перевірки гіпотези у вигляді нерівності типу р < а.
Як зазначалося, частіше за все в області клінічних досліджень перевіряються гіпотези про статистичну значимість відмінностей, проте потрібно мати на увазі, що у статистиці існують й інші варіанти, наприклад, гіпотези про згоду (або форми) розподілів, гіпотези про значущість кореляції, гіпотези про величину параметрів розподілу тощо.
Незалежно від конкретного формулювання гіпотези, можна дати стислий опис типових етапів процедури перевірки статистичних гіпотез. Дані дії лежать в основі всіх статистичних перевірок:
• вибрати рівень значимості а;
• сформулювати нульову гіпотезу (зазвичай як висновок, який хотілося б відкинути) Н0 і обов'язково відповідну їй альтернативну гіпотезу НА;
• вибрати тестову статистику або, іншими словами, відповідний критерій для перевірки сформульованої гіпотези;
• обчислити значення тестової статистики за наявними даними;
• визначити за допомогою розподілу тестової статистики або зазвичай за наявними таблицями її розподілу критичну область, імовірність потрапляння в яку при справедливості нульової гіпотези дорівнює а;
• зробити висновок, порівнявши розраховане значення статистики з вибраним критичним значенням. Якщо отримане значення статистики лежить у критичній області, то слід відхиляти нульову гіпотезу і прийняти альтернативну. В протилежному випадку приймається нульова гіпотеза.
При цьому важлива правильна інтерпретація отриманих результатів перевірки гіпотези. Те, що значення критерію вийшло незначущим, не є чітким доказом справедливості нульової гіпотези.
Це означає лише, що наявні дані їй не суперечать. Не можна забувати, що, перевіряючи статистичну гіпотезу, ми маємо справу лише з обмеженою вибіркою з генеральної сукупності. Тому всі висновки, що робляться під час перевірки статистичних гіпотез, носять характер імовірності. От чому значення імовірності помилок I і II роду мають таке велике значення для цієї процедури.
Для перевірки гіпотез у біометрії можливі 2 види критеріїв: параметричні(побудовані на підставі параметрів даної сукупності) і непараметричні(побудовані безпосередньо за варіантами даної сукупності та їх частотами).
Перші служать для перевірки гіпотез про параметри сукупності, розподілені за відомим законом (зазвичай в біометрії за нормальним законом), інші – для перевірки гіпотез незалежно від форми розподілу сукупностей. Так, при нормальному розподілі ознаки параметричні критерії мають більшу потужність, ніж непараметричні, тому якщо відомо, що порівнювані вибірки були взяті з нормально розподілених сукупностей, перевагу слід віддавати параметричним критеріям.
У разі дуже великих відмінностей розподілу ознаки від нормального закону, при малих об'ємах вибірки, а також для аналізу порядкових даних слід застосовувати непараметричні критерії. Якщо варіюючи ознаки виражаються не числами, а умовними знаками, використання непараметричних критеріїв виявляється єдино можливим.
Перевірити, чи була взята дана вибірка з нормально розподіленої сукупності в свою чергу можна за допомогою спеціальних статистичних тестів, наприклад, за допомогою коефіцієнтів асиметрії та ексцесу. На практиці для перевірки нормальності розподілу частіше за все використовується критерій Хі-квадрат.
Розглянемо схему перевірки даного критерію. Для проведення розрахунків за цим критерієм потрібно вміти будувати вибірковий розподіл випадкової величини.
Для цього отримані в ході дослідження результати потрібно подавати у вигляді варіаційного ряду, або ряду розподілу.Варіаційний ряд є подвійним рядом чисел, що показує для кожного значення ознаки (варіанти), скільки разів воно (вона) зустрічається в даній сукупності (частота варіанти).Це визначення більшою мірою відноситься до так званого безінтервального варіаційного ряду.
Проте, якщо загальну варіацію ознаки (в межах від мінімальної до максимальної варіанти) розбити на проміжки (класи) і підрахувати частоту потрапляння варіант даної сукупності в ці інтервали, отримаємо інтервальний варіаційний ряд.
Графічно варіаційні ряди можуть бути подані у вигляді полігонів розподілу для безінтервальних рядів і гістограм розподілу частот для інтервальних рядів.
Даний критерій погодження ефективний за умови наявності не менше 50 елементів у вибірці. В підручниках часто говориться, що для успішного використання критерію Хі-квадрат найменша частота в інтервалах варіаційного ряду має бути рівною 5.
Якщо ж в якому-небудь інтервалі варіаційного ряду міститься менше 5 частот, то цей клас рекомендуютьоб'єднати з сусіднім класом. Проте, згідно з грунтовними дослідженнями У. Кокрена, така умова є надмірно обмежувальною, і для розподілів, які широко використовуються, достатньо вимагати, щоб частоти були не менше 1.
Загальна формула цього критерію має вигляд:
де
— число класів, — фактичні частоти, оцінені за вибіркою, що вивчається, — частоти, розраховані за теоретичним розподілом (рис. 1).