2.ИНТЕРВАЛЬНАЯ ГРУППИРОВКА
Практически каждый исследовательский проект начинается с построения таблиц частот. Например, в социологических опросах ответы, измеренные в определенной шкале (в номинальной шкале, в порядковой шкале, в количественной шкале) можно свести в таблицу частот, например результаты голосования за кандидатов той или иной партии в зависимости от социального положения и среднедушевого дохода. В медицинских исследованиях табулируют пациентов с определенными симптомами. В маркетинговых исследованиях - покупательский спрос на товары разного типа у разных категорий населения. В промышленности - частота выхода из строя элементов устройства, приведших к авариям или отказам всего устройства при испытаниях на прочность (например, для определения какие детали телевизора действительно надежны после эксплуатации в аварийном режиме при большой температуре, а какие нет). Обычно, если в данных имеются группирующие переменные, то для них всегда вычисляются таблицы частот.
Переменные из файла данных могут быть проанализированы и представлены в виде таблиц частот. Таблица показывает частоты, кумулятивные (накопленные) частоты, процент, кумулятивный процент респондентов. STATISTICA позволяет ввести коды, задать интервалы группировки (для переменных, принимающих числовые значения), определить логические условия, позволяющие отнести наблюдения к определенной группе. Технически это делается несколькими щелчками мыши. Переменные, представленные в виде частот наблюдений, попавших в определенные категории (классы), называются категоризованными. Категоризованная переменная может представлять собой классификацию обычной числовой переменной по группам. Однако часто она может вовсе не иметь числового выражения (например, если переменная измерена в порядковой или номинальной шкале).
Одновходовые таблицы представляют собой простейший метод анализа категориальных (номинальных) переменных (см. Элементарные понятия статистики). Часто их используют как одну из процедур разведочного анализа, чтобы просмотреть, каким образом различные группы данных распределены в выборке. При этом исходные данные (измеренные в любой подходящей шкале) представляются в виде частот наблюдений, попавших в некоторые определенные исследователем категории или классы. Например, изучая зрительский интерес к разным видам спорта (с целью рекламы какого-либо продукта на ТВ), вы могли бы представить ответы респондентов таблицей
Технология выполнения интервальной группировки состоит из решения следующих задач:
- построение интервального ряда;
- расчет статистических характеристик интервального ряда;
- проверка гипотезы о нормальном распределении интервального ряда;
- графическое изображение интервального ряда.
2.1. ПОСТАНОВКА ЗАДАЧИ
2.1.1. Построение интервального ряда.
Один из методов группировки в статистике является разбивка единиц совокупности на отдельные группы по количественному группировочному признаку. Множество значений группировочного признака разбивается на несколько интервалов. Интервал это значения варьирующего признака, лежащие в определенных границах - нижней и верхней границах. Далее каждое отдельное значение признака X условимся обозначать x1, x2, ,xn.
Построение интервального вариационного ряда распределения включает следующие этапы:
- определение количества групп по формуле Стерджесса:
; (2.1).Данная формула имеет ориентировочный характер. Значение k округляется до большего целого значения.
- определение среди имеющихся наблюдений минимального xmin и максимального xmax значений признака;
- определение размаха варьирования признака:
; (2.2).- определение длины интервала по формуле;
. (2.3).За нижнюю границу первого интервала принимается величина равная
. (2.4).За верхнюю границу последнего интервала принимается величина равная
. (2.5).Результаты группировки оформляются в виде таблицы распределения значений совокупности по интервалам (табл. 2.1).
Табл. 2.1.
Результаты группировки
Группировка данных | ||||||
Интервал Xi | Частота fi | Частость wi | Накопленная частота si | Середина интервала xSRi | Абсолютная плотность ma | Относительная плотность Mo |
… | … | … | … | … | … | … |
2.1.2. Расчет статистических показателей интервального ряда.
В этом задании лабораторной работы рассчитываются следующие характеристики интервального ряда:
- средняя арифметическая:
; (2.6).- выборочная дисперсия:
, (2.7)где xSRi - среднее значение i - ого интервала;
- выборочное среднее квадратическое отклонение
; (2.8)- выборочные коэффициенты асимметрии и эксцесса
, ; (2.9)где M3 и M4 - выборочные центральные моменты соответственно 3-го и 4-го порядков:
; (2.10)-Медиана:
; (2.11)где: me-1 - номер интервала, предшествующего медианному;
xme - начало медианного интервала;
S(me-1)- накопленная частота интервала, предшествующего медианному.
В качестве медианного интервала берется интервал, в котором накопленная частота впервые превышает половину объема выборки - n/2.
- Мода:
; (2.12).где индексы mo, mo-1, mo+1 означают соответственно модальный интервал; интервал, предшествующий модальному и интервал, следуемый за модальным;
f(mo), f(mo-1), f(mo+1) - частоты соответствующих интервалов;
xmo - начало модального интервала.
Интервал с наибольшей частотой принимается за модальный.
Для расчета статистических характер составляется таблица промежуточных результатов табл.2.2 (символом "?" обозначена сумма данных в столбце).
Табл. 2.2.
Промежуточные результаты
Расчет статистических показателей (промежуточные данные) | |||||
xSRi | fi | ||||
... | ... | ... | ... | ... | ... |
? | ? | ? | ? | ? | ? |
Результаты расчета характеристик представить в виде результирующей таблицы (табл. 2.3).
Табл. 2.3.
Результаты расчета
Статистические характеристики ряда | Условное обозначение | Значение |
Среднее значение Дисперсия … … | d2 ... ... | <значение> <значение> ... ... |
Коэффициенты асимметрии и эксцесса позволяют сделать предварительный вывод о близости изучаемого распределения к нормальному. Распределение принято считать нормальным, если выполняются условия AS<=3SA и E<=5SE.
2.1.3. Проверка гипотезы о нормальном распределении
интервального ряда
Предварительное заключение о близости изучаемого распределения к нормальному можно выполнить по алгоритму, приведенному в предыдущем пункте - по значениям коэффициента асимметрии AS и показателя эксцесса Е и их среднеквадратическим отклонениям SA, SE.