Метод определения меры различия между наблюдаемыми и предполагаемыми (теоретическими) численностями — хи-квадрат.
Ранее были рассмотрены различные отношения между выборками: количественное преобладание какого-то признака, представленного в одной из выборок, теснота связи между выборками. Но есть еще одно важное отношение между ними: количественная разница распределений, благодаря которой при сопоставлении выборок открывается возможность прийти к содержательным выводам. Это отношение обнаруживается при сопоставлении распределений численностей. Допустим, что сравниваются две выборки, выпускников двух школ. Часть выпускников каждой школы сдавали экзамены в вузы. Из первой школы сдавали экзамены 100 человек, из них 82 успешно, не сдали 18. Таково распределение численности в первой выборке. Из второй школы сдавали экзамены в вузы 87 человек, выдержали 44 человека, не сдали — 43. Таково распределение численностей во второй выборке. Достаточно ли этих данных, чтобы утверждать, что подготовленность к вузовским экзаменам выпускников этих школ неодинакова? На первый взгляд, разница налицо:
лучше подготовлены выпускники первой школы. Однако при таком раскладе численностей возможно влияние случайности. Поэтому встает вопрос, можно ли, считаясь с представленными распределениями, прийти к статистически обоснованному выводу о мере подготовленности к экзаменам в вузы той и другой выборки.
Метод, с помощью которого подвергаются статистическому анализу описанные распределения численностей, получил название хи-квадрат, его обозначают греческой буквой x2 с показателем степени. Он был разработан математиком Пирсоном. Метод x2 весьма универсален, применим во многих исследованиях, пригоден для статистического анализа распределения численностей разнообразных количественных материалов, относящихся ко всем статистическим шкалам, в том числе и к шкале наименований.
Техника вычисления хи-квадрата довольно проста. Рассмотрим пример со сдачей экзаменов в вузы выпускниками первой и второй школ. В условии сказано, что всего намерены были сдавать экзамены 187 человек: 100 учащихся (53,5%) из первой школы и 87 (46,5%) из второй. Предположим, что выпускники обеих школ подготовлены одинаково, тогда и доли сдавших и не сдавших будут такие же, как доли их представленности в общем числе сдающих. Всего сдало экзамены 126 выпускников (82 + 44). Согласно высказанному предположению, 53,5% от этого числа должны бы были прийтись на 1-ю школу — это составит 66,9 от 126 — и 46,5% на 2-ю школу, что составит 58,9 от 126. Такое же рассуждение повторяем и относительно несдавших. Их всего 61 человек (18 + 43). На 1-ю школу, как нам известно, должно, по предположению, прийтись 53,5% от этого числа, т.е. 33,0 от 61, а на долю 2-й школы — 46,5%, т.е. 28,1 от 61. Нуль-гипотеза, имеющая в данном раскладе тот смысл, что между выпускниками нет различия, при таком соотношении сдавших и несдавших подтвердилась бы. Однако в условиях этого исследования показано другое распределение. Количество выпускников 1-й школы, сдавших экзамены, составляет 82, а не 66,9, как можно было бы предположить, исходя из нуль-гипотезы. Соответственно количество выпускников 2-й школы, сдавших экзамены, составляет в действительности всего 44, а не 58,9. Точно также, сравнивая количество несдавших (по условию с предполагаемым распределением) найдем по 1-й школе 18, а не 33, а по 2-й школе — 43, а не 28,1.
Расхождения между действительными распределениями и распределениями, которые могли бы иметь место, если исходить из нуль-гипотез, налицо. Они-то и учитываются при вычислении x2. Все сказанное удобно представить в виде таблицы-графика распределения численностей (табл. 7). Количества, которые были бы получены при принятии нуль-гипотезы, заключены в скобки. В правом углу буквенное обозначение клетки.
Таблица 7
Школа | Число сдавших | Число несдавших | Всего | Долевые отношения, % |
Первая | 82 А (66,9) | 18 В (33,0) | 100 (100) | 53,5 |
Вторая | 44 С (58,9) | 43 Д (28,1) | 87 (87) | 46,5 |
Всего | 126 | 61 | 187 | 100 |
Получены разности по клеткам (знак разности несущественен). Клетки:
А fA = 82—66,9= 15,1;
В fB = 18 — 33 = 15,0;
С fC = 44 — 58,9 = 14,9;
Д fD= 43—28,1= 14,9. Формула хи-квадрат:
где f0— наблюдаемые численности; fe — предполагаемые (теоретические) численности.
В рассмотренном материале x2 = 15,12/66,9 + 152/33 + 14,92/58,9 + 14,92/28,1= 288/66,9 + 225/33 + 222/58,9 + 222/28,1= 3,4 + 6,8 + 3,8 + 7,9 = 21,9
Для получения числа степеней свободы нужно воспользоваться формулой (только для хи-квадрат): fd = (k - 1)(с - 1) = (2 - 1) х (2 - 1) = 1 степень свободы, где k — число столбцов, с — число строк в таблице с анализируемым материалом.
Обратимся к таблице уровней значимости для одной степени свободы для хи-квадрат: x20,99= 6,6. Следовательно, полученная величина вполне достаточна для отклонения h0.Есть все основания для содержательного вывода о различной степени подготовленности выпускников обеих школ к экзаменам в вузы.
Все вычисления, приводимые в этой главе, ведутся с точностью до первого знака, т.е. вычисляются целые и десятые. Этим объясняется та, в общем-то, несущественная разница при вычислениях одной и той же величины разными способами. Никакого практического значения встречающиеся расхождения в величинах не имеют.
Полезно знать, что коэффициент хи-квадрат и коэффициент четырехпольной корреляции взаимосвязаны и, поскольку известна численность и распределение сопоставляемых выборок, указанные коэффициенты могут быть определены один через другой.
Как показывает само название этого метода, числовой материал, подлежащий статистическому анализу, может быть распределен в таблице-графике, имеющей четыре поля. Такое расположение материала облегчает все последующие действия с ним. Чтобы рассмотреть технику вычисления коэффициента четырехпольной корреляции — он обозначается символом j (фи), — можно воспользоваться тем примером, где речь шла о вычислении коэффициента x2. Выпускники двух школ сравнивались между собой по подготовленности к вузовским экзаменам.
Школы | Сдали | Не сдали | Всего |
Первая | 82 a | 18 b | 100 a + b |
Вторая | 44 c | 43 d | 87 c + d |
Итого: | 126 а + с | 61 b + d | 187 |
Заменив буквенные обозначения числами, получим:
Для получения коэффициента х2 нужно воспользоваться формулой х2 = j2 · n. В данном примере х2 = 0,342 ·187 = 0,1156 · 187 = = 21,7. Этот же коэффициент х2 вычислялся другим приемом. Получено значение 21,9. Расхождение вызвано разницей в технике вычислений.
Коэффициент четырехпольной корреляции j может принимать значения от 0 до 1, причем знак получаемого j не принимается во внимание.
Психологу, намеренному воспользоваться для статистического анализа своих материалов методом хи-квадрат, нужно знать о некоторых обязательных требованиях этого метода; о них не упоминалось в приведенных примерах. При вычислении коэффициента х2 необходимо брать для анализа только абсолютные численности выборок, но не относительные, в частности, не проценты. Необходимость учитывать это свойство объясняется тем, что значение коэффициента х2 зависит от абсолютных величин рассматриваемых распределений. Так, сравнение выборок с численностями 60 и 40 даст совершенно не тот результат, что сравнение выборок с численностями 6 и 4, хотя процентное отношение распределений в обоих случаях одинаково (60 и 40%).
Далее, для вычисления коэффициента х2 нужно, чтобы в каждой клетке таблицы-графика было не менее пяти наблюдений. Наконец, нужно со вниманием относиться к определению числа степеней свободы; неверное определение этого числа повлечет за собой неверное определение уровня значимости коэффициента по таблице.
Этим заканчивается рассмотрение статистических методов, относящихся ко второму типу задач.
В этих задачах независимо от того, будут ли они практического или теоретического содержания, психолог сопоставляет, сравнивает между собой несколько выборок. При этом не следует забывать, что цель исследования не всегда состоит в том, чтобы при сопоставлении отвергнуть нуль-гипотезу. Иногда конечная или промежуточная цель исследования состоит в том, чтобы, допустим, сравнивая выборки, подтвердить нуль-гипотезу. Самый простой пример: исследователь желает составить большую выборку, для чего необходимо объединить в ней учащихся нескольких школ. Естественно, решающее значение имеет доказательство того, что группы учащихся из разных школ относятся к одной совокупности, нужно, чтобы примененные критерии подтвердили это, а значит, статистика должна подтвердить при сравнении групп нуль-гипотезу. Подтвердить или отвергнуть нуль-гипотезу при сопоставлении выборок — в этом и состоит назначение статистических критериев; наиболее простые из них были изложены в предшествующем тексте. Конечно, информация, которую выявят статистические методы, может быть противоречива утверждениям, которые намерен защищать исследователь. В таком случае ему придется внести поправки в свои утверждения или отказаться от них.