Смекни!
smekni.com

Функциональная зависимость и регрессия (стр. 2 из 10)

Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y(т) и величиной основных производственных фондов Х (млн руб.) для совокупности 50 однотипных предприятий (табл. 1).

(В таблице через
и
обозначены середины соответствующих интервалов, а через
, и
– соответственно их частоты.)

Для каждого значения, т.е. для каждой строки корреляционной таблицы вычислим групповые средние

(1.5)

где

- частоты пар (
) и
; m – число интервалов по переменной Y.

Вычисленные групповые средние

поместим в последнем столбце корреляционной таблицы и изобразим графически в виде ломаной, называемой эмпирической линией регрессии Y по X

Аналогично для каждого значения

по формуле

(1.6)

вычислим групповые средние

, где
, l – число интервалов по переменной X.

По виду ломанной можно определить наличие линейной корреляционной зависимости Y по X между двумя рассматриваемыми переменными, которая выражается тем точнее чем больше объем выборки n:

n=

(1.7)

Поэтому уравнение регрессии(1.3) будем искать в виде:

(1.8)

Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.

С этой целью применим метод наименьших квадратов, согласно которому неизвестные параметры

и
выбираются таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних
, вычисленных по формуле (1.5), от значений
, найденных по уравнению регрессии (1.8), была минимальной:

S=

(1.9)

На основании необходимого условия экстремума функции двух переменных S=S(

) приравниваем к нулю ее частные производные, т.е.

Откуда после преобразования получим систему нормальных уравнений для определения параметров линейной регрессии:

(1.10)

Учитывая (1.5) преобразуем выражение и с учетом (1.7), разделив обе части уравнений (1.10) на n, получим систему нормальных уравнений в виде:

(1.11)

где соответствующие средние определяются по формулам:

,
(1.12)

(1.13)

(1.14)

Подставляя значение

из первого уравнения системы(1.11) в уравнение регрессии (1.8), получаем

(1.15)

Коэффициент b1 в уравнении регрессии, называемый выборочным коэффициентом регрессии (или просто коэффициентом регрессии) Yпо Х, будем обозначать символом

. Теперь уравнение регрессии Yпо Х запишется так:

(1.15)

Коэффициент регрессии Yпо Х показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной Х на одну единицу.

Решая систему (1.11), найдем

, (1.16)

где

- выборочная дисперсия переменной X

=
– (
(1.17)

µ - выборочный корреляционный момент:

µ=

(1.18)

Рассуждая аналогично и полагая уравнение регрессии (1.4) линейным, можно привести его к виду:

где

(1.21)

выборочный коэффициент регрессии (или просто коэффициент регрессии) Х по Y, показывающий, на сколько единиц в среднем изменяется переменная Х при увеличении переменной Y на одну единицу

=
– (
–выборочная дисперсия переменной Y.

Так как числители в формулах (1.16) и (1.20) для

и
совпадают, а знаменатели – положительные величины, то коэффициент регрессии
и
имеют одинаковые знаки, определяемые знаком
. Из уравнений регрессии (1.15) и (1.19) следует, что коэффициенты
и
определяют угловые коэффициенты (тангенсы углов наклона) к оси Ох соответствующих линий регрессии, пересекающихся в точке (
).

1.3 Коэффициент корреляции

Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (1.15).На первый взгляд подходящим измерителем тесноты связи Yот Х является коэффициент регрессии

ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяетсяY, когда Х увеличивается на одну единицу. Однако
зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов Х выразить не в млн руб., а в тыс. руб.

Очевидно, что для «исправления»

как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.

Представим уравнение (1.15) в эквивалентном виде:

(1.22)

В этой системе величина

r =

(1.23)

показывает, на сколько величин

изменится в среднем Y, когда X увеличится на одно
.Величина r является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

На рис. 1.2 приведены две корреляционные зависимости переменной Yпо Х. В случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).