Определение моды
Мода (
) – наиболее часто встречающееся значение признака в совокупности. ,где: ХМО – начало модального интервала; i – величина интервала; fMO–частота, соответствующая модальному интервалу; fMO–1 – предмодальная частота; fMO+1 – послемодальная частота.
Графически мода определяется по гистограмме распределения. Для этого правую вершину модального прямоугольника соединяем с правым верхним углом предыдущего прямоугольника, а левую вершину модального прямоугольника с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения.
Пример построения гистограммы, основанный на данных из табл. 6, и моды представлен на рис.1.
Корреляция
Между двумя статистическими признаками могут наблюдаться два вида взаимосвязи. Первый вид – функциональная взаимосвязь, при которой значения результативного (зависимого) признака У полностью определяются изменениями факторного (независимого) признака X. В случае функциональной связи можно записать математическое выражение, показывающее характер, форму связи между двумя признаками. Так, например, можно записать уравнение функциональной связи, известное из курса физики, между скоростью падения тела, опущенного с некоторой высоты, и временем полета:
Рис. 1. Гистограмма
где v – скорость падения; t – время падения; g – ускорение свободного падения. По этому уравнению, зная время полета (факторный признак), всегда можно найти скорость падающего тела (результативный признак). Множество лабораторных экспериментов подтверждают записанное уравнение функциональной связи. Однако также хорошо известно, что лист дерева и камень падают с одной и той же высоты с разной скоростью. Парашютист приземляется на аэродроме всегда примерно с одинаковой скоростью, независимо от высоты, с которой произошел прыжок (значит, независимо и от продолжительности прыжка). В показанных примерах на падающее тело действует множество других факторов, главный из которых –сопротивление воздуха. В таких условиях, когда на связь между факторным и результативным признаком воздействует множество различных факторов, затруднительно установить функциональную связь между признаками. В подобных случаях изменение результативного признака У обусловлено влиянием факторного признака х лишь частично, однако это влияние вполне заметно. Это другой вид статистической связи – корреляционная связь.
Общая форма корреляционной связи представляется выражением:
,где φ(х) – функция, представляющая форму связи между факторным и результативным признаками; ε – элемент, отражающий влияние всех неучтенных факторов.
При корреляционной связи между статистическими признаками одному и тому же значению факторного признака соответствуют различные значения результативного признака, однако есть и общая тенденция, показывающая, что в среднем при увеличении факторного признака происходит соответствующее увеличение или уменьшение, в среднем, результативного признака. Это среднее изменение и показывает функция φ(х).
Если рассматривать связь между возрастом оборудования и эксплуатационными расходами, связанными с этим оборудованием, то такую связь можно заметить, проведя аналитическую группировку (первая часть РГР): при увеличении возраста станков в среднем увеличиваются и эксплуатационные расходы. Однако по статистическим данным, представленным в табл. 2 – 5, видно, что в каждой таблице есть данные о станках с одинаковым возрастом, но со значительно различающимися эксплуатационными расходами, так как на величину этих расходов влияет не только возраст, но и ряд других факторов: частота и качество предыдущих технических обслуживаний, интенсивность эксплуатации станка, частота нарушений рекомендуемых режимов работы и др. Для одного типа станков определенному возрасту соответствует бόльшая вариация величины эксплуатационных расходов, другому типу станков – меньшая. Таким образом, для каждой из четырех групп станков, представленных таблицами, существует разная степень тесноты связи между возрастом и эксплуатационными расходами.
К простейшим показателям тесноты связи относят коэффициент корреляции знаков – коэффициент Фехнера. Этот показатель основан на оценке степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от соответствующих средних.
Для его расчета вычисляют средние значения результативного и факторного признаков, а затем проставляют знаки отклонений для всех значений взаимосвязи пар признаков.
,где Кф – коэффициент Фехнера; na – число совпадений знаков отклонений индивидуальных величин от средней; nв – число несовпадений знаков отклонений.
Коэффициент Фехнера может принимать различные значения в пределах от –1 до +1. Если коэффициент близок к +1, то можно предположить наличие прямой связи, если –1, то наличие обратной связи.
Степень тесноты связи в статистике измеряют с помощью специального показателя, называемого коэффициентом корреляции:
,где х – значения факторного признака; у – значения результативного признака; n – общее число наблюдений.
Предполагается что в формуле суммирование производится для всех значений признаков хi и уi,
. Эти обозначения опущены для упрощения записи.Представленный коэффициент корреляции предполагает, что между х и у существует связь, которая является прямолинейной. В случае, когда связь между признаками нелинейная, используются другие статистические показатели для описания тесноты связи, рассмотрение которых не входит в задачу настоящих методических указаний.
Значения коэффициента корреляции могут изменяться от –1 до 1. В случае R=1 между признаками существует полная функциональная связь, причем связь прямая – при увеличении х увеличивается и у. При R = –1 –связь функциональная и обратная (при увеличении ху уменьшается). В случае, когда R=0, между изучаемыми признаками отсутствует какая-либо связь. Однако при изучении статистической связи очень редко появляются предельные значения коэффициента корреляции, поэтому полученным промежуточным значениям коэффициента корреляции дается качественная оценка: при R > 0.7 – теснота связи между х и у считается высокой, при R > 0.9 – очень высокой. Чем ближе коэффициент корреляции к 1 или –1, тем более тесной является связь между статистическими признаками. Получив в РГР коэффициенты корреляции для всех четырех групп станков, можно установить, для какой группы наблюдается более тесная связь между возрастом станков и величиной эксплуатационных расходов.
Вторым этапом изучения статистической связи вслед за определением степени тесноты связи с помощью коэффициента корреляции идет этап установления формы связи или вида функции φ(х), объясняющей основную закономерность влияния факторного признака х на результативный признак у.
Под формой статистической связи понимают ту тенденцию, которая проявляется в изменении изучаемого результативного признака в связи с изменением факторного признака. Форму связи можно попытаться установить, построив в прямоугольной системе координат все множество пар значений признаков (хi, уi),
. По оси абсцисс откладываются значения факторного признака х, по оси ординат – значения признака у. Такое графическое построение называется полем корреляции или диаграммой рассеяния, пример построения представлен на рис. 2. По характеру расположения точек на координатной плоскости можно судить о характере статистической связи. Если наблюдается тенденция равномерного возрастания или убывания значений признака, то связь называется прямолинейной. При тенденции неравномерного изменения значений зависимость носит название криволинейной.Линия на графике (см. рис. 2), изображающая тенденцию в изменении результативного признака при возрастании факторного, называется линией регрессии. В случае прямолинейной связи линия регрессии ищется в виде уравнения прямой линии:
,где у – теоретические значения результативного признака, образующие прямую линию; а0, а1 – параметры уравнения; х – значения факторного признака.
При попытках установления криволинейной связи может использоваться достаточно широкий класс математических функций:
1)
– полулогарифмическая;2) – показательная;
3)
– степенная;