Основные характеристики и графическое изображение
вариационного ряда.
Понятие вариационного ряда.
Первичные статистические данные часто представлены неупорядоченной последовательностью чисел, характеризующих ту или иную сторону процесса. В этой совокупности чисел бывает трудно разобраться и первичная обработка материалов сводится к приведению имеющихся данных к виду, удобному для анализа.
Пример: При исследовании студентов первого курса по возрасту были зафиксированы следующие данные:
17 18 18 18 19 18 20 20 19 18 18 21 19 22 23 18 19 19 19 21 21 18 18 18 18 22 19 18 20 18 19 18 20 19 21 20 22 18 19 21 19 19 22 23 19 20 21 22 17 19
Полученный в результате обследования ряд чисел в дальнейшем будем называть статистической совокупностью, а сами числа показывающие изменения (вариацию) подлежащего изучению признака – вариантами (обозначим их Xi, где I - номер варианта).
Если упорядочить совокупность исходных данных в убывающем или возрастающем порядку то получим так называемый ранжированный ряд.
Используем для упорядоченной таким образом совокупности более компактную запись, представляем ее в виде таблицы. В первой колонке поставим различающиеся по величине варианты, расположив их в возрастающем порядке, во второй – числа, показывающие, как часто, встречаются отдельные значения вариант (назовем их частотами и обозначим Ni).
Распределение студентов первого курса по возраст
табл. 1
Возраст студентов (варианты Xi) | Число студентов с данным возрастом (частоты Ni) |
17181920212223 | 215146652 |
ИТОГО | 50 |
Полученный ряд называется вариационным. Сведение первичных данных в вариационный ряд облегчит анализ совокупности так, например, видно, что в обследованной группе чаще встречаются студенты в возрасте 18-19 лет, меньше всего студентов 17 лет и 23.
Основные характеристики вариационного ряда.
Построение вариационного ряда является только первым шагом в изучении статистических данных. Для более глубокого исследования материала необходимы обобщающие количественные показатели, вскрывающие общие свойства статистической совокупности. Эти показатели, во-первых, дают общую картину, показывают тенденцию развития процесса или явления, нивелируя случайные индивидуальные отклонения, во-вторых, позволяют сравнивать вариационные ряды и, наконец, используются во всех разделах статистики при более полном и сложном анализе статистической совокупности.
Существуют две группы характеристик вариационного ряда:
1. меры уровня, или средние;
2. меры рассеяния.
Меры уровня, или средние.
Наиболее употребительными в статистических исследованиях являются три вида средних: средняя арифметическая, мода и медиана.
Выбор типа средней для характеристики вариационного ряда зависит от цели, для которой исчисляется средняя, от особенностей исходного материала и от возможностей той или иной средней.
Прежде чем перейти к характеристике отдельных видов средней, сформулируем некоторые, самые общие требования к средней.
Средняя, представляет собой количественную характеристику качественно однородной совокупности. Нарушение этого требования приводит к неверным выводам, искажает суть явления.
Кроме того, необходимо, чтобы средняя не была слишком абстрактной, а имела ясный смысл в решении задачи.
Далее, желательно, чтобы процедура вычисления средней была проста. При прочих равных условиях предпочтение отдается той средней, которая проще вычисляется.
При выборе средней желательно свести к минимуму влияние случайных колебаний выборки. Так, если одной и той же совокупности взять несколько групп элементов, то средние, им соответствующие, будут, как правило, различаться по величине. Рекомендуется использовать вид средней, у которой эти различия минимальны.
Наиболее распространенной мерой уровня – является средняя арифметическая.
где
- знак суммирования от 1 до k; Xi– варианты с порядковым номером i; = n – объем совокупности (число элементов совокупности); ni – частота варианта xi; k – число варианта. Если вместо частоты заданы частости qi, то формула имеет видгде
= 1, или 100%.Пример:
Вычислим средние размеры наделов крестьян по данным табл. 1.
Для решения задачи, прежде всего, необходимо найти середины интервалов. Определенная трудность возникает в связи с тем, что первый и последний интервалы являются открытыми. Нижнюю границу первого интервала естественно принять равной нулю. Тогда середина этого интервала равна (0+2)/2=l. Для нахождения центрального значения последнего интервала применим предложенный выше прием. Величина интервала, предшествующего последнему, равна 2. Условно принимаем за величину последнего интервала 2. Тогда верхняя граница того интервала-9 и, следовательно, его середина вычисляется так: (7+9)/2=8.
Пользуясь формулой средней арифметической и принимая за значение признака середину интервала (строка 2 табл.2), рассчитываем средний дореформенный надел у барщинных крестьян:
Аналогично вычисляется средний дореформенный надел у оброчных крестьян:
.Табл.2
Размеры дореформенного надела у крестьян
надел xi, дес | |||||
до 2 | С 2 до 3 | С 3 до 5 | С 5 до 7 | Свыше 7 | |
середина интерваловпроценет барщинных крестьян qt(1)процент оброчных крестьянqt(2) | 1.01.812.4 | 2.518.417.5 | 4.063.548.2 | 6.015.213.3 | 8.01.18.6 |
Кроме средней арифметической широкое распространение имеет другой вид мер уровня - медиана.
Медианой (обозначим Mе) называется такое значение варьирующего признака, которое приходится на середину вариационного ряда.
При нахождении медианы дискретного вариационного ряда могут возникнуть два случая: 1) число вариант нечетно (k=2m+1), 2) число вариант четно (k=2m). В первом случае Me=xm+1, т. е. медиана равна центральной (срединной) варианте ряда, во втором случае Me,=(xm+xm+1)/2, т.е. медиана принимается равной полу сумме находящихся в середине ряда вариант.
Пусть дан ряд с нечетным числом вариант:
X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 | X9 |
8 | 9 | 11 | 12 | 15 | 16 | 18 | 19 | 19 |
Тогда число вариант, равное 9, представимо в виде 2m+1=9, откуда 2m=8, m=4, т.е.Me=x4+1=x5=15.
Рассмотрим случай четного числа членов:
X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 | X9 | X10 | X11 | X12 |
8 | 9 | 11 | 12 | 15 | 16 | 18 | 19 | 19 | 23 | 24 | 40 |
Здесь 2m = 12, m = 6 и
Для интервального вариационного ряда медиана вычисляется по формуле
где xMe(min)-нижняя граница медианного интервала; h - величина этого интервала, или интервальная разность; qi- частоты или частости;
- накопленная сверху частота (или частость) интервала, предшествующего медианному; частота или частость медианного интервала.Пример: Вычислим медиану по данным табл. 3.
Распределение хозяйств русских переселенцев Чимкентского уезда по размеру посева (1902г.)
Размер посева xi дес. | Всего хозяйства qi % | Накопленные частости Ui | Плотность распределения fi |
0-44-88-1212-2020-30Более 30 | 16,624,419,123,99,76,3 | 16,641,060,184,093,7100,0 | 4,156,104,782,990,97 |
Вычисление медианы начинается с нахождения интервала, содержащего медиану. Медианному интервалу соответствует первая из накопленных частот или частостей, превышающая половину всего объема совокупности. В нашем случае объем совокупности равен 100%, первая из накопленных частостей, превышающая половину всего объема совокупности, - 60,1 (см. табл. 6). Следовательно, интервал 8-12 будет медианным. Далее, xme(min)=8, h=4,
=41, qMe=19.1. Воспользуемся формулой:Таким образом, серединный размер посева равен примерно 9,9 дес.
Медиану можно использовать в тех случаях, когда изучаемая совокупность неоднородна, и в такой ситуации она будет иметь вполне конкретный смысл. Так, в рассмотренном примере значение медианы имеет следующий смысл: у одной половины хозяйств размер посева меньше, у другой половины - больше, чем 9,9 дес.
Особо важное значение медиана приобретает при анализе асимметричных рядов, т. е. рядов, у которых нагружены (имеют большие частоты) крайние или близкие к крайним значения вариант. Например, медиана даст более верное представление о среднем уровне личных доходов группы семей в капиталистических странах, чем средняя арифметическая, так как медиана не столь чувствительна к край ним (нетипичным в плане постановки задачи) значениям (семьи с большим доходом), как средняя арифметическая.