Задача 1
Район | Потребительские расходы на душу населения, тыс.руб., y | Денежные доходы на душу населения, тыс.руб.,x |
Республика Башкортостан | 461 | 632 |
Удмуртская Республика | 524 | 738 |
Курганская область | 298 | 515 |
Оренбургская область | 351 | 640 |
Пермская область | 624 | 942 |
Свердловская область | 584 | 888 |
Челябинская область | 425 | 704 |
Республика Алтай | 277 | 603 |
Алтайский край | 321 | 439 |
Кемеровская область | 573 | 985 |
Новосибирская область | 576 | 735 |
Омская область | 588 | 760 |
Томская область | 497 | 830 |
Тюменская область | 863 | 2093 |
Fтабл. = 4,75 (α=0,05) | σy=152,47 | σx=382,79 |
ТРЕБУЕТСЯ
1. Рассчитайте параметры уравнения линейной регрессии.
2. Оцените тесноту связи с помощью показателей корреляции и детерминации.
3. Определите среднюю ошибку аппроксимации. Сделайте вывод.
4. Оцените статистическую надежность регрессионного моделирования с помощью F-критерия Фишера и t-критерия Стьюдента.
5. Оцените полученные результаты, оформите выводы.
РЕШЕНИЕ.
1. А) Вводим данные в таблицу (EXCEL) – столбцы № x,y :
Район | y | x | yx | y-yx | Ai | |
1 | Республика Башкортостан | 461 | 632 | 430,82 | 30,18 | 6,55 |
2 | Удмуртская Республика | 524 | 738 | 466,86 | 57,14 | 10,90 |
3 | Курганская область | 298 | 515 | 391,04 | -93,04 | 31,22 |
4 | Оренбургская область | 351 | 640 | 433,54 | -82,54 | 23,52 |
5 | Пермская область | 624 | 942 | 536,22 | 87,78 | 14,07 |
6 | Свердловская область | 584 | 888 | 517,86 | 66,14 | 11,33 |
7 | Челябинская область | 425 | 704 | 455,3 | -30,3 | 7,13 |
8 | Республика Алтай | 277 | 603 | 420,96 | -143,96 | 51,97 |
9 | Алтайский край | 321 | 439 | 365,2 | -44,2 | 13,77 |
10 | Кемеровская область | 573 | 985 | 550,84 | 22,16 | 3,87 |
11 | Новосибирская область | 576 | 735 | 465,84 | 110,16 | 19,13 |
12 | Омская область | 588 | 760 | 474,34 | 113,66 | 19,33 |
13 | Томская область | 497 | 830 | 498,14 | -1,14 | 0,23 |
14 | Тюменская область | 863 | 2093 | 927,56 | -64,56 | 7,48 |
Итого | 6962,00 | 11504,00 | 6934,52 | |||
среднее значение | 497,29 | 821,71 | 495,32 | 15,75 | ||
σ | 152,47 | 382,79 | ||||
σ2 | 23246,63 | 146524,63 |
Вычисление параметров линейного уравнения регрессии. С помощью инструмента Регрессия (Данные
Анализ данных Регрессия) получаем следующие результаты.ВЫВОД ИТОГОВ | ||||||
Регрессионная статистика | ||||||
Множественный R | 0,859604 | |||||
R-квадрат | 0,738919 | |||||
Нормированный R-квадрат | 0,717162 | |||||
Стандартная ошибка | 84,14752 | |||||
Наблюдения | 14 | |||||
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 1 | 240483,2 | 240483,2 | 33,9627 | 8,11E-05 | |
Остаток | 12 | 84969,65 | 7080,804 | |||
Итого | 13 | 325452,9 | ||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y-пересечение | 215,9377 | 53,2585 | 4,054521 | 0,001597 | 99,89739 | 331,978 |
Денежные доходы на душу населения, тыс.руб.,x | 0,342392 | 0,058752 | 5,827752 | 8,11E-05 | 0,214382 | 0,470401 |
Записываем уравнение парной линейной регрессии
yx= 215,94+0,34x
Экономический смысл уравнения: с увеличением денежных доходов x на 1тыс.руб. - потребительские расходы y в среднем возрастает на 0,34 тыс. руб.
- Множественный коэффициент корреляции R=0,86
по формуле
rxy =b
= 0,34*382,79/152,47=0,85.Cвязь между переменными x и y прямая, сильная, тесная, т.е. величина потребительских расходов значительно зависит от денежных доходов.
- Коэффициент детерминации R2 = 0,74, т.е. в 74% случаев изменения денежных доходов приводят к изменению потребительских расходов. Другими словами точность подбора уравнения регрессии 74% - высокая.
3. Для определения средней ошибки аппроксимации рассчитываем столбцы yx, y-yx, Ai:
Ai =I
I *100, =15,75Получаем значение средней ошибки аппроксимации
=15,8%Это означает, что, в среднем, расчетные значения зависимого признака отклоняются от фактических значений на 15,8%. Величина ошибки аппроксимации говорит о плохом качестве модели.
А) по критерию Фишера
1. Выдвигаем нулевую гипотезу о статистической незначимости параметров регрессии и показателя корреляции a=b=rxy=0;
2. Фактическое значение критерия Fф = 33,96;
3. Для определения табличного значения критерия рассчитываем коэффициенты k1=m=1 и
k2= n-m-1=12 Fтабл= 4,75
4. Сравниваем фактическое и табличное значения критерия Fфакт >Fтабл, т.е. нулевую гипотезу отклоняем и делаем вывод о статистической значимости и надежности полученной модели.
Б) по критерию Стьюдента:
1. Выдвигаем нулевую гипотезу о статистически незначимом отличии показателей от нуля: a=b=rxy=0;
2. Табличное значение t-критерия зависит от числа степеней свободы и заданного уровня значимости α. Уровень значимости – это вероятность отвергнуть правильную гипотезу при условии, что она верна. Для числа степеней свободы 12 и уровня значимости α =0,05 tтабл=2,18
3. Фактическое значение t- критерия рассчитываются отдельно для каждого параметра модели. С этой целью сначала определяются случайные ошибки параметров ma,mb,mrxy.
ma = 53,26, mb=0,06, mrxy=0,152, где Sост =
.n –число наблюдений, число независимых переменных.
Рассчитываем фактические значения t- критерия:
tфа =
=215,94/53,26 = 4,05; tфr = = 0,85/0,152 = 5,6.t фb =
= 0,34/0,06 = 5,7;4.Сравним фактические значения t-критерия с табличным значением:
tфа > tтабл; tфb > tтабл; tфr > tтабл.
Нулевую гипотезу отклоняем, параметры a,b,rxy – не случайно отличаются от нуля и являются статистически значимыми и надежными.
В) Чтобы рассчитать доверительный интервал для параметров регрессии a, b, необходимо определить предельную ошибку параметров:
∆a = tтаблma = 2,18*53,26=116,11 ∆a = tтаблmb=2,18*0,06 = 0,13
Доверительный интервалы: γa = a ± ∆a = 215,94 ± 116,11
99,83 ≤ a ≤ 332,05
γb = b ± ∆b = 0,34 ± 0,13
0,21 ≤ b ≤ 0,47
Анализ верхней и нижней границ доверительных интервалов показывает, что с вероятностью
p = 1 – α = 0,95 параметры a и b не принимают нулевых значений, т.е. являются статистически значимыми и надежными.
Выводы:
- Уравнение парной линейной регрессии yx= 215,94+0,34x. Экономический смысл уравнения: с увеличением денежных доходов x на 1тыс.руб. - потребительские расходы y в среднем возрастает на 0,34 тыс. руб.
- Множественный коэффициент корреляции R=0,86 указывает на связь между переменными x и y прямая, сильная, тесная, т.е. величина потребительских расходов значительно зависит от денежных доходов.
- Коэффициент детерминации R2 = 0,74,показывает, что в 74% случаев изменения денежных доходов приводят к изменению потребительских расходов. Точность подбора уравнения регрессии 74% - высокая.
- Значение средней ошибки аппроксимации
=15,8% означает, что среднем, расчетные значения зависимого признака отклоняются от фактических значений на 15,8%. Величина ошибки аппроксимации говорит о плохом качестве модели.- Фактическое значение больше табличного значения критерия Fфакт >Fтабл, указывает, что полученная модель статистически значима и надежна
- При сравнении фактических значений t-критерия с табличным значением, получаем, что параметры a,b,rxy – не случайно отличаются от нуля и являются статистически значимыми и надежными.
- Анализ верхней и нижней границ доверительных интервалов показывает, что с вероятностью p = 1 – α = 0,95 параметры a и b не принимают нулевых значений, т.е. являются статистически значимыми и надежными.