Смекни!
smekni.com

Статистические наблюдения (стр. 4 из 18)

от

+ σ до
+2 σ

от

+ 2σ до
+3σ

- с помощью заранее установленных норм. Пример: согласно нормам DIN ориентировочное минимальное число групп составляет (табл.3.4):

Таблица 3.4

Число групп по нормам DIN

Число наблюдений Число групп
до 100 min 10
до 1000 min 13
до 10000 min 16

При этом величина интервала выбирается таким образом, чтобы в каждой группе было хотя бы одно значение признака, т.е. не было "пустых" групп. Кроме того, величина интервала по возможности должна выражаться нечетным числом, чтобы середина интервала являлась бы целым числом.

Количество групп зависит также от того, на какую потерю информации согласен исследователь (заказчик). Обычно приемлемым считается уровень 1-5 % величины показателя.

Точное установление границ интервалов

Если признак дискретный, то следующий интервал будет на одну единицу больше предыдущего:

0-2 (+1)

3-5 (+1)

6-8 (+1) и.т.д.,

где, например, 6 – нижняя граница; 8 – верхняя граница интервала.

Если же имеем непрерывный признак, то интервалы выглядят так:

0-2 (-)

2-5

5-8,

и возникает вопрос: в какую группу включать единицу наблюдения, значение признака у которой совпадает с границами интервалов. Существует 2 способа: "включительно" и "исключительно". По способу "включительно" единица наблюдения со значением 2 попадает в первую группу, по способу "исключительно" – во вторую.

Далее, интервалы бывают открытые и закрытые. У закрытых интервалов обозначены обе границы, у открытых – только одна граница, верхняя или нижняя, например,

"менее 2" или

"5 и более"

Ширина открытого интервала принимается равной ширине смежного с ним интервала (последующего или предыдущего).

4) Сложная группировка

Если в основу группировки положено несколько признаков, то мы имеем дело со сложной группировкой. Она может выполняться как комбинационная (группы, выделенные по одному признаку, затем подразделяются на подгруппы по другому признаку) или как многомерная (группы или кластеры выделяются одновременно по нескольким признакам). В последнем случае единица совокупности рассматривается как точка в m-мерном пространстве, а задачей группировки является выделение точек, составляющих однородные группы (кластеры) единиц. Изучение многомерных группировок (кластерный анализ) проводится с помощью средств вычислительной техники.

После проведения группировки строится ряд распределения, а затем обработанный статистический материал представляется в виде таблиц, графиков, диаграмм и т.д..

3.3 Статистические ряды

Статистический ряд – это упорядоченное распределение единиц совокупности по группам. Его нужно отличать от ряда динамики. Ряд распределения характеризует структуру явления. Ряд динамики – развитие явления во времени.

Ряд распределения называют ранжированным, если признак стоит в порядке возрастания или убывания.

Ряд распределения всегда имеет 2 элемента:

х – варианта или значение признака,

f – частота или числовое значение варианты.

Если значение признака выражается числом, то ряд распределения является количественным или вариационным, если словом – атрибутивным или качественным.

Количественные ряды делятся, в свою очередь, на дискретные (варьирующий признак дискретен) и непрерывные (варьирующий признак непрерывен, значения признака задаются в виде интервала).

Пример (табл.5) .

Таблица 3.5

Дискретный ряд распределения

X f F
0 10 10
1 20 30
2 15 45
3 5 50
4 3 53
5 2 55

где X – число забитых в чемпионате мячей;

f – число игр с таким числом голов;

F – накопленная частота.

На плоскости дискретный ряд распределения изображается графиком, называемым полигоном распределения – dasHäufigkeitspolygon, thefrequencypolygon (рис.3.2.).


f

20 -

15 -

10 -

5 -

│ │ │ │ │

0 1 2 3 4 5 x

Рис. 3.2 Пример полигона распределения

Примером интервального ряда распределения может служить таблица распределения семей по размеру жилой площади на одного человека.

Таблица 3.6

Интервальный ряд распределения

Группы семей по размеру жилой площади на человека (кв. м.) Число семей с данным размером жилой площади Накопленное число семей
3-5 10 10
5-7 20 30
7-9 30 60
9-11 40 100
11-13 15 115
N=115

Для графического изображения интервального ряда распределения (непрерывный признак) применяется гистограмма – dasHistogramm, thehistogram.

Если в ряду распределения интервалы не равны, то гистограмма строится с использованием еще одной величины – плотности распределения. Плотность распределения – это частота, падающая на единицу интервала.

Построим гистограмму для ряда с неравными интервалами (см. табл.3.2. и рис.3.4.)

плотность

200-

150-

20-

10-

|

| | | |

0 1 3 10 20 30 стаж

Рис. 3.4. Гистограмма ряда распределения с неравными интервалами

В целом выделяют следующие основные типы распределения:

f

ТИП 1 ТИП 2

в

а в

а

x


ТИП 3 ТИП 4


Рис. 3.5. Основные типы распределения

ТИП 1 – симметричное распределение (а – плосковершинное, в - островершинное);

ТИП 2 – асимметричное распределение (а – правосторонняя асимметрия, в – левосторонняя асимметрия);

ТИП 3 – многовершинное распределение (статистическая совокупность неоднородна);

ТИП 4 – симметричная кривая распределения с двумя экстремальными значениями.

Часто возникает вопрос не о том, какова частота отдельной варианты, а о том, сколько значений признака выше (или ниже) определенной величины.

В таких случаях применяют два особых вида кривых для изображения ряда распределения: кумуляту и огиву. Кумулята отвечает на вопрос “менее чем”, огива – “более, чем”.

Пример (табл. 3.7, рис.3.5).

Таблица 3.7.

Договоры предприятия N в 200_ г.

Группы договоров Количество договоров Количество договоров в процентах
Абсолютное значение Накопленная величина по возрастанию Накопленная величииа по убыванию Доля Накоплен-ная вели-чина по воз-растанию
0-150 50 50 1000 5 5
150-300 150 200 950 15 20
300-450 180 380 800 18 38
450-600 260 640 620 26 64
600-750 220 860 360 22 86
750-900 90 950 140 9 95
900-1050 50 1000 50 5 100
1000 100

Построим по этим данным огиву и кумуляту (рис. 3.6)