Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y(т) и величиной основных производственных фондов Х (млн руб.) для совокупности 50 однотипных предприятий (табл. 1).
(В таблице через и обозначены середины соответствующих интервалов, а через , и – соответственно их частоты.)Для каждого значения, т.е. для каждой строки корреляционной таблицы вычислим групповые средние
(1.5)где
- частоты пар ( ) и ; m – число интервалов по переменной Y.Вычисленные групповые средние
поместим в последнем столбце корреляционной таблицы и изобразим графически в виде ломаной, называемой эмпирической линией регрессии Y по XАналогично для каждого значения
по формуле (1.6)вычислим групповые средние
, где , l – число интервалов по переменной X.По виду ломанной можно определить наличие линейной корреляционной зависимости Y по X между двумя рассматриваемыми переменными, которая выражается тем точнее чем больше объем выборки n:
n=
(1.7)Поэтому уравнение регрессии(1.3) будем искать в виде:
(1.8)Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.
С этой целью применим метод наименьших квадратов, согласно которому неизвестные параметры
и выбираются таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних , вычисленных по формуле (1.5), от значений , найденных по уравнению регрессии (1.8), была минимальной:S=
(1.9)На основании необходимого условия экстремума функции двух переменных S=S(
) приравниваем к нулю ее частные производные, т.е.Откуда после преобразования получим систему нормальных уравнений для определения параметров линейной регрессии:
(1.10)Учитывая (1.5) преобразуем выражение и с учетом (1.7), разделив обе части уравнений (1.10) на n, получим систему нормальных уравнений в виде:
(1.11)где соответствующие средние определяются по формулам:
, (1.12) (1.13) (1.14)Подставляя значение
из первого уравнения системы(1.11) в уравнение регрессии (1.8), получаем (1.15)Коэффициент b1 в уравнении регрессии, называемый выборочным коэффициентом регрессии (или просто коэффициентом регрессии) Yпо Х, будем обозначать символом
. Теперь уравнение регрессии Yпо Х запишется так: (1.15)Коэффициент регрессии Yпо Х показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной Х на одну единицу.
Решая систему (1.11), найдем
, (1.16)где
- выборочная дисперсия переменной X = – ( (1.17)µ - выборочный корреляционный момент:
µ=
(1.18)Рассуждая аналогично и полагая уравнение регрессии (1.4) линейным, можно привести его к виду:
где
(1.21)выборочный коэффициент регрессии (или просто коэффициент регрессии) Х по Y, показывающий, на сколько единиц в среднем изменяется переменная Х при увеличении переменной Y на одну единицу
= – ( –выборочная дисперсия переменной Y.Так как числители в формулах (1.16) и (1.20) для
и совпадают, а знаменатели – положительные величины, то коэффициент регрессии и имеют одинаковые знаки, определяемые знаком . Из уравнений регрессии (1.15) и (1.19) следует, что коэффициенты и определяют угловые коэффициенты (тангенсы углов наклона) к оси Ох соответствующих линий регрессии, пересекающихся в точке ( ).Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (1.15).На первый взгляд подходящим измерителем тесноты связи Yот Х является коэффициент регрессии
ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяетсяY, когда Х увеличивается на одну единицу. Однако зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов Х выразить не в млн руб., а в тыс. руб.Очевидно, что для «исправления»
как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.Представим уравнение (1.15) в эквивалентном виде:
(1.22)В этой системе величина
r =
(1.23)показывает, на сколько величин
изменится в среднем Y, когда X увеличится на одно .Величина r является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). На рис. 1.2 приведены две корреляционные зависимости переменной Yпо Х. В случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).