Разобьем представленный ряд на шесть подгрупп по пять признаков в каждом.
*Первая подгруппа включит в себя первые пять цифр,
*вторая — следующие пять и т.д.
Вычислим средние значения для каждой из пяти образованных подгрупп чисел. Они соответственно будут равны 1,2; 3,4; 5,2; 6,8; 8,6; 10,6.
Таким образом, нам удалось свести исходный ряд, включающий тридцать значений, к ряду, содержащему всего шесть значений и представленному средними величинами. Это и будет интервальный ряд, а проведенная процедура — разделением исходного ряда на интервалы.
Теперь все статистические расчеты мы можем производить не с исходным рядом признаков, а с полученным интервальным рядом, и результаты в равной степени будут относиться к исходному ряду. Однако число производимых в ходе расчетов элементарных арифметических операций будет гораздо меньше, чем количество тех операций, которые с этой же целью пришлось бы проделать в отношении исходного ряда признаков.
На практике, составляя интервальный ряд, рекомендуется руководствоваться следующим правилом: если в исходном ряду признаков больше чем тридцать, то этот ряд целесообразно разделить на пять-шесть интервалов и в дальнейшем работать только с ними.
Для проверки сказанного проведем пробное вычисление среднего значения по приведенному выше ряду, составляющему тридцать чисел, и по ряду, включающему только интервальные средние значения. Полученные цифры с точностью до двух знаков после запятой будут соответственно равны 5,97 и 5,97, т.е. являются одинаковыми.
Вопрос 2 МЕТОДЫ ВТОРИЧНОЙ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА
С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом.
Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики.
Обсуждаемую группу методов можно разделить на несколько подгрупп:
Рассмотрим каждую из выделенных подгрупп методов вторичной статистической обработки на примерах.
1. Регрессионное исчисление — это метод математической статистики, позволяющий свести частные, разрозненные данные к некоторому линейному графику, приблизительно отражающему их внутреннюю взаимосвязь, и получить возможность по значению одной из переменных приблизительно оценивать вероятное значение другой переменной.
Воспользуемся для графического представления взаимосвязанных значений двух переменных х и у точками на графике (рис, 73). Поставим перед собой задачу: заменить точки на графике линией прямой регрессии, наилучшим образом представляющей взаимосвязь, существующую между данными переменными. Иными словами, задача заключается в том, чтобы через скопление точек, имеющихся на этом графике, провести прямую линию,
Рис. 73. Прямая регрессии Y no X. хср и уср — средние значения переменных. Отклонения отдельных значений от линии регрессии обозначены вертикальными пунктирными линиями. Величина у,-у является отклонением измеренного значения переменной yj от оценки, а величина у - у является отклонением оценки от среднего значения (Цит. по: Шерла К. Факторный анализ. М., 1980. С. 23).
пользуясь которой по значению одной из переменных, х или у, можно приблизительно судить о значении другой переменной. Для того чтобы решить эту задачу, необходимо правильно найти коэффициенты а и Ь в уравнении искомой прямой:
у = ах + b.
Это уравнение представляет прямую на графике и называется уравнением прямой регрессии.
Формулы для подсчета коэффициентов а и Ь являются следующими:
где хi уi - частные значения переменных X и Y, которым соответствуют точки на графике;
— средние значения тех же самых переменных;
п — число первичных значений или точек на графике.
Для сравнения выборочных средних величин, принадлежащих к двум совокупностям данных, и для решения вопроса о том, отличаются ли средние значения статистически достоверно друг от друга, нередко используют t-критерий Стъюдента. Его основная формула выглядит следующим образом:
где
х1 — среднее значение переменной по одной выборке данных;
х2 — среднее значение переменной по другой выборке данных;
т1и т2 — интегрированные показатели отклонений частных значений из двух сравниваемых выборок от соответствующих им средних величин.
т1и т2в свою очередь вычисляются по следующим формулам:
где
— выборочная дисперсия первой переменной (по первой выборке); — выборочная дисперсия второй переменной (по второй выборке);п] — число частных значений переменной в первой выборке;
п2 — число частных значений переменной по второй выборке.
После того как при помощи приведенной выше формулы вычислен показатель t, по таблице 32 для заданного числа степеней свободы, равного n1 + п2- 2, и избранной вероятности допустимой ошибки1 находят нужное табличное значение t и сравнива-
1 Степени свободы и вероятность допустимой ошибки — специальные математико-статистические термины, содержание которых мы здесь не будем рассматривать.
Таблица 32
Критические значения t-критерия Стъюдента
для заданного числа степеней свободы и вероятностей допустимых ошибок, равных 0,05; 0,01 и 0,001
Число степеней свободы (n1+ n2 -2) | Вероятность допустимой ошибки | ||
0,05 | 0,01 | 0,001 | |
Критические значения показателя t | |||
4 | 2,78 | 5,60 | 8,61 |
5 | 2,58 | 4,03 | 6,87 |
6 | 2,45 | 3,71 | 5,96 |
7 | 2,37 | 3,50 | 5,41 |
8 | 2,31 | 3,36 | 5,04 |
9 | 2,26 | 3,25 | 4,78 |
10 | 2,23 | 3,17 | 4,59 |
11 | 2,20 | 3,11 | 4,44 |
12 | 2,18 | 3,05 | 4,32 |
13 | 2,16 | 3,01 | 4,22 |
14 | 2,14 | 2,98 | 4,14 |
15 | 2,13 | 2,96 | 4,07 |
16 | 2,12 | 2,92 | 4,02 |
17 | 2,11 | 2,90 | 3,97 |
18 | 2,10 | 2,88 | 3,92 |
19 | 2,09 | 2,86 | 3,88 |
20 | 2,09 | 2,85 | 3,85 |
21 | 2,08 | 2,83 | 3,82 |
22 | 2,07 | 2,82 | 3,79 |
23 | 2,07 | 2,81 | 3,77 |
24 | 2,06 | 2,80 | 3,75 |
25 | 2,06 | 2,79 | 3,73 |
26 | 2,06 | 2,78 | 3,71 |
27 | 2,05 | 2,77 | 3,69 |
28 | 2,05 | 2,76 | 3,67 |
29 | 2,05 | 2,76 | 3,66 |
30 | 2,04 | 2,75 | 3,65 |
40 | 2,02 | 2,70 | 3,55 |
50 | 2,01 | 2,68 | 3,50 |
60 | 2,00 | 2,66 | 3,46 |
80 | 1,99 | 2,64 | 3,42 |
100 | 1,98 | 2,63 | 3,39 |
ют с ними вычисленное значение t. Если вычисленное значение t больше или равно табличному, то делают вывод о том, что сравниваемые средние значения из двух выборок действительно статистически достоверно различаются с вероятностью допустимой ошибки, меньшей иди равной избранной. Рассмотрим процедуру вычисления t-критерия Стъюдента и определения на его основе разницы в средних величинах на конкретном примере.