Метод наименьших квадратов для однофакторной линейной регрессии (стр. 2 из 3)

∑(X_i – X) (Y_i – Y)

r_xy = = 403.64 / 24.25 х 19,63 = 0,856;

Так как 0,6 ≤ ‌‌r_xy ‌<0,9 то линейная связь между X₁и Y – достаточная. Попытаемся описать связь между X₁ и Y зависимостью Y=b₀+b₁X. Параметры b₀, b₁ найдем по МНК.

b₁= r_xy σ_x σ_{y =}-0,856 х 19,63. 24,25 = -0,696;

b₀= y – b₁X = 37.566 + 0.696 х 51.92 = 73.70

Так как b₁ < 0, то зависимость между X₁ и Y обратная: с ростом сбора овощей уровень убыточности сельскохозяйственной продукции падает. Проверим значимость коэффициентов b₀, b₁.

Значимость коэффициентов b может быть проверена с помощью критерия Стьюдента:

t_набл= b₀/σ_b₀= 73.70/6.53 = 11.28;

Значимость t_набл равна 0,00000007, т.е. 0,000007%. Так как это значение меньше 5%, то коэффициент b₀ статистически значим.

t_набл= b₁/σ_b₁= -0,696/0,1146 = -6,0716;

Значимость t_набл равна 0,000039, т.е. 0,0039%. Так как это значение меньше 5%, то коэффициент b₁ статистически значим.

Получили модель связи сбора овощей и уровня убыточности сельскохозяйственной продукции:

Y = 73.70 – 0.6960X

После того, как была построена модель, необходимо проверить ее на адекватность.

Разброс данных, объясняемый регрессией SSR = ∑(ỹ-y)² = 3990,5;

Остатки, необъясненный разброс SSЕ = ∑(ỹ-y_i)² = 1407,25;

Общий разброс данных SSY = ∑(y_i-y)² = 5397,85;

Для анализа общего качества оценной линейной регрессии найдем коэффициент детерминации: R² = SSR/SSY = 0.7192;

Разброс данных объясняется линейной моделью на 72% и на 28% – случайными ошибками.

Вывод: Качество модели хорошее

Проверим с помощью критерия Фишера. Для проверки этой гипотезы сравниваются между собой величины:

MSR = SSR / K₁ = 3990.5946/ K₁ = 3990.5946. Отсюда K₁ = 1.

MSE = SSE / K₂ = 1407.25 / K₂ = 108.25. Отсюда K₂ = 13.

Находим наблюдаемое значение критерия Фишера F_набл= MSR/MSE.

Значимость этого значения α = 0,00004, т.е. процент ошибки равен 0,004%. Так как это значение меньше 5%, то найденная модель считается адекватной.

Найдем прогноз на основании линейной регрессии. Выберем произвольную точку из области прогноза [18.7; 101.3]. Допустим это точка X₁ = 50.

Рассчитываем прогнозные значения по модели для всех точек выборки и для точки прогноза Y_{(х = 50)}= 73.7085 – 0.6960 х 50 = 38.9.

Найдем полуширину доверительного интервала в каждой точке выборки X_пр

Отсюда получим, что δ = 23,22.

В приведенной формуле:

σ_е= MSE = 108.25 = 10.40 – среднеквадратичное отклонение выборочных точек от линии регрессии.

t_y = 2,16 – критическая точка распределения Стъюдента для надежности γ = 0,95 и K₂ = 13 при n = 15.

SX = ∑(x_i-x)² или

SX = (n – 1) х D(X) = 14 х 588 х 39 = 8237,46;

Прогнозируемый доверительный интервал для любого X₁ такой (ỹ – δ; ỹ + δ).

Совокупность доверительных интервалов для всех X₁ из области прогнозов образует доверительную область, которая представляет область заключения между двумя гиперболами. Наиболее узкое место в точке X.

Прогноз для Х₁ составит от 15,7 до 62,1 с гарантией 95%. То есть можно сказать, что при сборе овощей 50 центнеров с 1 га уровень убыточности сельскохозяйственной продукции можно спрогнозировать на уровне 15,7% – 62,1%.

Найдем эластичность Y = 73.70 – 0.6960X.

В нашем случае (для линейной модели) E_x = -0.6960X/(73.70 – 0.6960X).

В численном выражении это составит:

E_х=50 = -0,6960×50 / (73.70 – 0.6960×50) = – 0,8946;

Коэффициент эластичности показывает, что при изменении величины Х₁ на 1% показатель Y уменьшается на 0,8946%.

Например, если Х₁= 50,5 (т.е. увеличился на 1%), то Y = 38.9 + 38.9×(-0,008946) = 38,5520006.

Проверим и Y_{х =50,5} = 73.70 – 0.6960X = 73.70 – 0.6960 × 50,50 = 38,552.

Задание №2

Построим нелинейную зависимость показателя от второго фактора.

Обозначим: затраты труда, человеко-часов на 1 ц – X₂, а уровень убыточности как Y.

Затраты труда, человеко-часов на 1 ц	Уровень убыточности
X2	Y
2,3	8,8
26,8	39,4
22,8	26,2
56,6	78,8
16,4	34
26,5	47,6
26	43,7
12,4	23,6
10	19,9
41,7	50
47,9	63,1
32,4	44,2
20,2	11,2
39,6	52,8
18,4	20,2

Найдем основные числовые характеристики.

6. Объем выборки n = 15 – суммарное число наблюдений.

7. Минимальное значение величины трудоемкости Х₂=2,3;

Максимальное значение трудоемкости Х₂=56,6;

Минимальное значение величины уровня убыточности Y=8,8;

Максимальное значение величины уровня убыточности Y=78,8;

Среднее значение:

X = ∑x_i.

Среднее значение величины трудоемкости X₂ = 321,8/15 = 26,816.

Среднее значение величины уровня убыточности Y = 563,5/15 = 37,566.

Дисперсия

D(X) = ∑ (X_i – X)²= 254,66 D(Y) = ∑(Y_i – Y)²= 385,56

10. Среднеквадратическое отклонение:

σ_x=√254,66 = 15,95 значит среднее трудоемкости в среднем от среднего значения составляет 15,95%.

σ_y=√385.17 = 19.63, значит среднее уровня убыточности всей сельскохозяйственной продукции в среднем от среднего значения составляет 19,63%.

Для начала нужно определить, связаны ли X₁и Y между собой, и, если да, то определить формулу связи. По таблице строим корреляционное поле (диаграмму рассеивания). Точка с координатами (X, Y) = (26,816; 37,566) называется центром рассеяния. По виде корреляционного поля можно предположить, что зависимость между X₁ и Y нелинейная (стр.), а именно имеет зависимость

Путем преобразования нелинейную зависимость приведем к линейной V = b₀ + b₁U.

Для начала заменим переменные U = x, а V = ln(Y).

Найдем конкретные значения V и U (стр.), затем строим корреляционное поле (стр.) и находим результаты регрессивной статистики.

Для определения тесноты линейной связи V = b₀ + b₁U найдем коэффициент корреляции:

∑(U_i – U) (V_i – V)

r_vu= = 403.64 / 24.25 х 19,63 = 0,856;

Так как 0,6 ≤ ‌‌r_xy ‌ <0,9 то линейная связь между X₁и Y – достаточная. Попытаемся описать связь между X₁ и Y зависимостью Y=b₀+b₁X. Параметры b₀, b₁ найдем по МНК.

b₁= r_vu σ_v σ_{u =}-0,856 х 19,63. 24,25 = -0,696;