Рис. 1.1.6. Гистограмма и кривая накопленных частот первичных результатов
исследования выборки (см. табл. 1.1.5).
На основе описанного только что метода представления первичных результатов - табличного и графического - может быть произведен расчет статистических показателей. Цель этих расчетов в том, чтобы с помощью простых показателей дать математическую оценку результатов эксперимента или наблюдения. Наиболее часто используемыми статистическими показателями распределения являются меры центральной тенденции и меры рассеивания.
Меры центральной тенденции. Среди множества мер центральной тенденции для обработки результатов психологических исследований чаще всего используют среднюю арифметическую величину (М) и медиану (Me).
В случае небольшого числа первичных результатов и отсутствия предварительной их группировки значение средней арифметической получают путем последовательного суммирования исходных величин (X) с последующим делением этой суммы на общее количество исходных данных (N):
.Если массив первичных данных был подвергнут предварительной группировке, то для вычисления средней арифметической величины проделывают следующие операции. Для каждого класса группировки определяют произведение частоты класса (f) на центр группировки класса (X), а затем суммируют эти произведения и полученную величину делят на общее количество исходных данных N:
.Так, для примера, приведенного в табл. 1.1.4, мы имеем: 57+52+141+ +168+222+224+324+132+136+24 =1480 и
= 29,60, т. е. М = 29,60.Второй мерой центральной тенденции, особенно для порядковых величин, является медиана. Медиана - это точка на измерительной шкале, выше которой находится точно половина наблюдений и ниже которой - также точно половина наблюдений. В этом определении важно подчеркнуть, что медиана - это точка на шкале, а не отдельное измерение или наблюдение. На примере данных табл. 1.1.4 продемонстрируем этапы вычисления медианы на основе сгруппированных данных.
1. Находим половину наблюдений в массиве данных т. е. N/2. В нашем примере: 50:2 = 25,0.
2. Суммируем частоты, начиная с минимального класса группировки, до класса, содержащего половину необходимых наблюдений т. е. медиану. Для нашего примера, в котором N =50, половиной наблюдений будет 25. Итак, по данным табл. 1.1.4 это: 2 + 8 + 6 + 12 = 28. Отсюда очевидно, что медиана предположительно расположена в 4-м классе группировки, точные границы которого 24,5 и 29,5.
3. Определяем, сколько же наблюдений из класса, содержащего медиану, необходимо для того, чтобы найти ее. Поскольку сумма накопленных частот из предыдущих трех классов равна 16 (см. табл. 1.1.5), то ясно, что из медианного класса необходимо еще 9 наблюдений, а именно 25-16 =9.
4. Вычисляем ту долю интервала на шкале, которая позволит определить точное положение медианы. Если в медианном классе имеем 12 наблюдений и наблюдения в пределах класса распределены равномерно, то при ширине класса, равной 5 единицам, получаем: 9/12´5 = 3,75.
5. Прибавляем полученный результат к нижней точной границе класса группировки, содержащего медиану: 24,5+3,75 = 28,25. Это и есть ее значение: Mе = 28,25.
Существует аналитическая формула для интерполяции медианы:
,где l - нижняя точная граница класса группировки содержащего медиану; Fb - сумма частот классов* ниже l; fp - сумма частот класса, содержащего медиану; N - число наблюдении или измерений; i - ширина класса группировки.
* Величина Fb в данной формуле соответствует по своему смыслу величине накопленных частот (fcum), расчет которой был продемонстрирован выше.
Как видно из нашего примера, когда распределение первичных результатов наблюдений или измерений отличается от нормального, то величины средней арифметической и медианы не совпадают: 29,60¹28,25.
Меры изменчивости. В качестве мер изменчивости результатов, характеризующих степень рассеивания отдельных величин вокруг средней арифметической, используются разные меры в зависимости от примененных шкал измерения. Для характеристики рассеивания величин интервальных шкал и шкал отношений пользуются значением среднеквадратичного отклонения (s). Для величин порядковых шкал используют значения полуквартильных отклонений (Q1, и Q3).
При несгруппированных данных произведем расчет так называемого стандартного отклонения, обозначаемого S. Понятие стандартного отклонения (S) на практике чаще всего используется как синоним среднего квадратичного отклонения (s). Расчет делается следующим образом:
1. Рассчитаем среднюю арифметическую величину (М).
2. Находим отклонение (х) каждого результата измерения (X) от средней арифметической величины: х=Х-М.
3. Возводим найденное значение отклонения каждого результата от среднего в квадрат: x2.
4. Суммируем значения квадратов отклонений всех результатов: åx2.
5. Делим сумму квадратов отклонений на общее число наблюдений (N) и получаем величину, называемую дисперсией (D):
6. Извлекаем корень квадратный из дисперсии и получаем величину, называемую стандартным отклонением (S), или среднеквадратичное отклонение (s):
, s = .Таблица 1.1.6
Расчет дисперсии (D) и стандартного отклонения (S) (при N=10)
Х | х | х2 |
13 17 15 11 13 11 17 13 11 11 | 0,2 -3,8 -1,8 2,2 0,2 2,2 -3,8 0,2 2,2 2,2 | 0,04 14,44 3,24 4,84 0,04 4,84 14,44 0.04 4,84 4,84 |
å х2 = 51,60
Таким образом: D
и S .Приведем все описанные расчеты для конкретного примера и определим дисперсию и стандартное отклонение для выборки, состоящей из результатов 10 измерений: 13; 17; 15; 11; 13; 11; 17; 13; 11; 11. Для начала рассчитаем среднюю арифметическую величину: она оказывается равна 13,2. Для облегчения дальнейших расчетов составляем табл. 1.1.6. В 1 -и графе таблицы записываем первичные данные (X), во 2-й - отклонения их значений от средней арифметической (х) и в 3-й - квадраты отклонений (х2).
При сгруппированных данных формула расчета дисперсии приобретает следующий вид:
,где f - частота каждого из классов группировки; Xi - центр каждого из классов группировки; М - средняя арифметическая величина, а N - число измерений.
Различают два полуквартильных отклонения - для левой и правой сторон распределения экспериментальных данных. Каждое из полуквартильных отклонений представляет собой величину, соответствующую половине области распределения центральных 50% данных на шкале измерений. Очевидно, что любое распределение экспериментальных данных может быть разделено на четыре равные части, каждая из которых охватывает 25% наблюдений. Если отсчитывать наблюдения, начиная от минимальной величины на измерительной шкале, то точка Q1 , отделяющая первые 25% наблюдений от остальных, определит границу первого квартиля. Та же самая процедура счета, производимая от максимальной величины, отделяет последний, т. е. четвертый, квартиль; сама же точка на шкале обозначается как Q3 . Наконец медиана, согласно ее определению, позволяет идентифицировать второй и третий квартили: точка их разделения на шкале и соответствует медиане. Она получила обозначение Q2. Половина же интервала на измерительной шкале, заключенного между точками Q1 и Q3 и есть полуквартильные отклонения. Только в случае нормального, т. е. симметричного, распределения данных точка Q2 совпадает с местоположением медианы. Следовательно, с помощью полуквартильных отклонений можно определять рассеивание экспериментальных данных вокруг медианы.
Обратимся снова к табл. 1.1.4 и расчету мер центральной тенденции. Ранее для приведенных там данных мы рассчитали, что Me = 28,25, и таким образом определили точку Q2. Теперь нам предстоит найти точки Q1 и Q3. В случае нормального, т. е. строго симметричного, распределения данных точки Q1и Q3 можно рассматривать в качестве медиан: Q1 - для левого интервала (от начала шкалы измерений до точки Q2), a Q3 - для правого интервала (от конца шкалы до той же точки Q2). Поэтому дальнейшие процедуры расчетов значений Q1 и Q3 будут аналогичны той, которую мы рассматривали при вычислении медианы. То есть мы имели право воспользоваться приведенной выше аналитической формулой для интерполяции медианы, а именно