Для составления корреляционной таблицы парной связи материал предварительно группируется по обоим признакам. Затем строится таблица, в которой по строкам откладываются группы одного (например, результативного) признака, а по столбцам размещаются группы другого (теперь факторного) признака. В клетках этой таблицы отмечается число единиц, имеющих определенную величину того и другого признаков. Итоги по строкам (
) покажут число единиц в каждой группе результативного признака (если он размещен в строках). Итоги по колонкам ( ) покажут распределение факторного признака. В клетке, в которой итоги по строке сходятся с итогами по колонке, получаем число наблюдений: .Корреляционная зависимость задается таблицей:
Таблица 3
х у | … | ||||
… | |||||
… | |||||
… | … | … | … | … | … |
… | |||||
… |
Корреляционная таблица дает общее представление о направлении связи. Когда оба признака расположены в возрастающем порядке, числа предприятий в клетках сосредотачиваются в направлении диагонали слева направо, что указывает на прямую связь между признаками. Все числа предприятий сосредотачиваются в эллипсе, вытянутом по этой диагонали, называемом корреляционным эллипсом. Чем более сжат этот эллипс, тем кучнее частоты располагаются около его диагонали, тем теснее связь между признаками.
Эмпирическое корреляционное отношение.
Теснота или сила связи между двумя признаками может быть измерена показателем, называемым эмпирическим корреляционным отношением. Этот показатель назван эмпирическим, поскольку он может быть рассчитан на основе обычной группировки по факторному и результативному признаку, то есть на основе корреляционной таблицы. Эмпирическое корреляционное отношение получается из правила сложения дисперсий, согласно которому
, где - общая дисперсия; - межгрупповая дисперсия; - внутригрупповая (средняя из частных) дисперсия. Межгрупповая дисперсия является мерой колеблемости, обусловленной факторным признаком. Средняя из частных дисперсий является мерой колеблемости, обусловленной всеми остальными(кроме факторного) признаками. Тогда отношение выражает долю колеблемости, возникающей за счет факторного признака, в общей колеблемости. Квадратный корень из этого отношения и называется эмпирическим корреляционным отношением: .Отсюда следует правило, что чем больше межгрупповая дисперсия, тем сильнее факторный признак влияет на вариации результативного признака. Составляющие отношения дисперсий вычисляются по данным корреляционной таблицы по следующим формулам:
; ,где
- частные средние; - общая средняя; - итоги по признаку ; - итоги по признаку ; - число наблюдений.То же соотношение сохраняется и для условных значений
, полученных числовым преобразованием .Само отношение дисперсий (подкоренное выражение) называется коэффициентом детерминации (оно равно также квадрату эмпирического корреляционного отношения). Эмпирическое корреляционное отношение изменяется в широких пределах (от 0 до 1). Если оно равно нулю, значит факторный признак на корреляционный не влияет. Если
=1, значит, результативный признак полностью зависит от факторного. Если же эмпирическое корреляционное отношение представляет дробь, близкую единице, то говорят о тесной связи между факторным и результативным признаками. Если эта дробь мала (близка нулю), то говорят о слабой связи между ними.Коэффициент линейной корреляции и индекс корреляции.
Мерой тесноты связи между двумя статистически связанными признаками служит коэффициент линейной корреляции или просто коэффициент корреляции. Он имеет тот же смысл, что и эмпирическое корреляционное отношение, но может принимать как положительное, так и отрицательное значение. Коэффициент корреляции имеет строгое математическое выражение для линейной связи. Положительное значение будет указывать на прямую связь между признаками, отрицательное – на обратную.
Парный коэффициент корреляции в случае линейной формы связи вычисляют по формуле
,а его выборочное значение – по формуле:
При малом числе наблюдений выборочный коэффициент корреляции удобно вычислять по следующей формуле:
Величина коэффициента корреляции изменяется в интервале
.При
между двумя переменными существует функциональная связь, при - прямая функциональная связь. Если , то значение Х и У в выборке некоррелированы; в случае, если система случайных величин имеет двумерное нормальное распределение, то величины Х и У будут и независимыми.Если коэффициент корреляции находится в интервале
, то между величинами Х и У существует обратная корреляционная связь. Это находит подтверждение и при визуальном анализе исходной информации. В этом случае отклонение величины У от среднего значения взяты с обратным знаком.