Медиану следует применять, если вычисление средней арифметической неправомерно вследствие неопределенности интервалов (первого или последнего, или того и другого вместе).
К достоинствам медианы следует отнести также то, что она менее подвержена случайностям выборки, чем средняя арифметическая.
Медиану не следует использовать, когда число наблюдений невелико.
Наряду со средней арифметической и медианой важное значение как мера уровня имеет мода.
Модой(обозначим Мо) называется варианта, наиболее часто встречающаяся в данном вариационном ряду.
Для дискретного ряда мода равна варианте с наибольшей частотой или частостью.
Для интервального вариационного ряда модальный интервал, т. е. интервал, содержащий моду, определяется по наибольшей' частоте (частости) в случае равных интервалов и по наибольшей плотности в случае неравных интервалов. Значение варианты, равное моде, отыскивается приближенными методами.
Довольно грубое приближение можно получить, взяв за моду центральное значение модального интервала, т. е. среднее арифметическое границ интервала.
Пример:
Вычислим моду по данным табл. 3. В последнем столбце табл. 3 вычислены плотности распределения.
Наибольшая плотность соответствует интервалу 4-8. Это и есть модальный интервал.
Рассчитываем моду: Mo=(4+8)/2=6 (дес.).
Таким образом, получаем, что наиболее типичным по размеру посева хозяйством русских переселенцев, Чимкентского уезда в 1908 г. было хозяйство, засевавшее 6 дес. земли.
Моду можно вычислить также как взвешенную среднюю арифметическую из нижней и верхней границ модального интервала (весами в расчете будут служить частоты или частости интервалов предмодального и послемодального). При этом если ряд построен правильно и интервалы, соседние с модальными, мало отличаются друг от друга, т. е. распределение близко к симметричному, то этот способ дает хорошие результаты.
Воспользовавшись вторым методом исчисления моды, рассчитаем наиболее типичный размер посева по данным табл. 3:
(дес.)Мода имеет те же достоинства, что и медиана. Мода и медиана эффективно используются в качестве мер уровня, но сравнительно со средней арифметической реже употребляются как исходный материал для более сложных методов статистики.
Меры рассеяния. Рассмотренные выше средние показывают уровень вариационного ряда, другими словами, позволяют ряд чисел охарактеризовать одним числом. Однако средние не содержат в себе информации о том, насколько хорошо они представляют всю совокупность. Одинаковые или близкие по величине средние могут относиться к весьма различным рядам. Для пояснения этого положения рассмотрим условный пример.
Пример: В табл. 4 приведены данные о возрасте.
1 | 2 | 3 | 4 | 5 | Всего | |
1 группа2 группа | 3114 | 3215 | 3615 | 4066 | 4170 | 180180 |
Рассчитав, получаем, что средний возраст в 1-ой и 2-ой группах одинаков и равен 36. Но простейшее сравнение этих двух рядов показывает, что одинаковые средние представляют две совершенно различные по возрастному составу группы, а именно: в 1-ю группу входят люди в зрелом возрасте, тогда как во 2-ю-старики и дети. Иначе говоря, варианты первого ряда довольно тесно группируются вокруг своей средней, т. е. средняя представительна, тогда как во втором ряду обнаруживается сильный разброс (рассеяние) вариант. Чтобы отметить подобные различия, в статистике прибегают к расчету показателей, характеризующих рассеяние признака (мер рассеяния).
Рассмотрим основные меры рассеяния: размах вариации, дисперсию и среднее квадратичное отклонение.
Размах вариации показывает разность между наибольшим и наименьшим значениями признака (R=xmax-xmin). Достоинством этого показателя является простота расчета. Однако возможности его применения ограничены, так как эта характеристика является наиболее грубой из всех мер рассеяния.
Во-первых, при расчете этого показателя рассеяния признака используются только крайние значения признака, остальные же во внимание не принимаются. Во-вторых, размах вариации существенно зависит от случайных колебаний выборка.
Более ценными для характеристики рассеяния признака являются показатели, при расчете которых используются отклонения всех вариант от некоторой средней (например, средней арифметической, медианы). К таким мерам рассеяния, в частности, относятся дисперсия и среднее квадратичное отклонение. Последние меры рассеяния меньше любой другой меры подвержены случайным колебаниям выборки. Среднее квадратичное отклонение и дисперсия нашли широкое применение почти во всех разделах статистики.
Дисперсия, или средний квадрат отклонения (обозначим σ2) есть средняя арифметическая из квадратов отклонений вариант от их средней арифметической, т. е. в математической записи
где xi-варианта с порядковым номером i;
- средняя арифметическая; k- число вариант; qi-частота или частость с порядковым номером I.Часто для исследования удобно представлять меру рассеяния в тех же единицах измерения, что и варианты. Тогда вместо дисперсии используют среднее квадратичное отклонение, которое является квадратным корнем из дисперсии, т. е. среднее квадратичное отклонение вычисляется по формуле
Пример:Рассмотрим распределение дореформенного надела у крестьян Симбирской губернии отдельно для группы барщинных и группы оброчных крестьян (табл.2). Средние величины дореформенных наделов для обеих групп крестьян оказались практически равными (4,018 дес. у барщинных и 3,976 у оброчных). Выясним, насколько одинаковой была вариация показателей в этих группах. С этой целью вычислим средние квадратичные отклонения по совокупности барщинных и по совокупности оброчных крестьян.
Табл. 5 Данные для вычисления среднеквадратичного отклонения.
Размер наделов, дес. | Середина интервалов xi | Барщинные крестьяне | Оброчные крестьяне | ||||
qi | qi | ||||||
До 22-33-55-7Свыше 7 | 1,02,54,06,08,0 | 1,818,463,515,21,1 | 3,01,502,04,0 | 9,02,204,016,0 | 16,240,5060,817,6 | 12,417,548,213,38,6 | 111,638,5053,2137,6 |
Итого | 100,0 | 135,1 | 340,9 |
Для вычисления средних квадратичных отклонений удобно составить вспомогательную таблицу (табл. 5). В ней зафиксированы все промежуточные расчеты. Подставляя результаты этих расчетов в формулу
,получим среднее квадратичное отклонение для барщинных крестьян:
и среднее квадратичное отклонение для оброчных крестьян:
т е. колебание признака у оброчных крестьян примерно в полтора раза больше, чем у барщинных.
Таким образом, средняя величина дореформенного надела у барщинных и оброчных крестьян Симбирской губернии почти одинакова, т. е. в среднем эти группы крестьян по обеспеченности землей практически не отличаются. Но в среде оброчных крестьян различия в размере наделов больше, чем среди барщинных крестьян.
Рассмотренные выше меры рассеяния (размах вариации, дисперсия, среднее квадратичное отклонение) являются абсолютными величинами, судить по ним о степени колеблимости признака не всегда можно, в некоторых задачах необходимо использовать относительные показатели рассеяния. Таким показателем является коэффициент вариации.
Коэффициент вариации (обозначим V) представляет собой отношение среднего квадратичного отклонения к средней арифметической, выраженное в процентах, т. е.
Коэффициент вариации позволяет: 1) сравнивать вариацию одного и того же признака у разных групп объектов, 2) выявить степень различия одного и того же признака у одной и той же группы объектов в разное время, 3) сопоставить вариацию разных признаков у одних и тех же групп объектов.
Графическое представление вариационных рядов.
Существуют несколько способов графического изображения рядов (гистограмма, полигон, кумулята), выбор которых зависит от цели исследования и от вида вариационного ряда.
Полигон распределения в основном используется для изображения дискретного ряда, но можно построить полигон и для интервального ряда, если предварительно привести его к дискретному. Полигон распределения представляет собой замкнутую ломаную линию в прямоугольной системе координат с координатами (xi, qi), где xi – значение i-го признака, qi – частота или частость i-го признака.
Пример: Построим полигон распределения по данным табл. 1. В прямоугольной системе координат на горизонтальной оси откладываем значения признака (возраст студентов), а на вертикальной оси - частоты (число студентов с данным возрастом). Полученные точки соединим отрезками прямой. Для того чтобы фигура была замкнутой, введем дополнительно новые значения признака (16 лет, 24 года); соответствующие им частоты, естественно, равны нулю. В результате получим полигон распределения студентов по возрасту (рис. 1).