ВАРИАНТ 5
Изучается зависимость средней ожидаемой продолжительности жизни от нескольких факторов по данным за 1995 г., представленным в табл. 5.
Таблица 5
Страна | Y | X1 | X2 | X3 | X4 |
Мозамбик | 47 | 3,0 | 2,6 | 2,4 | 113 |
Бурунди | 49 | 2,3 | 2,6 | 2,7 | 98 |
…………………………………………………………………………………….. | |||||
Швейцария | 78 | 95,9 | 1,0 | 0,8 | 6 |
Принятые в таблице обозначения:
· Y— средняя ожидаемая продолжительность жизни при рождении, лет;
· X1— ВВП в паритетах покупательной способности;
· X2— цепныетемпы прироста населения, %;
· X3— цепныетемпы прироста рабочей силы, %;
· Х4 — коэффициент младенческой смертности, %.
Требуется:
1. Составить матрицу парных коэффициентов корреляции между всеми исследуемыми переменными и выявить коллинеарные факторы.
2. Построить уравнение регрессии, не содержащее коллинеарных факторов. Проверить статистическую значимость уравнения и его коэффициентов.
3. Построить уравнение регрессии, содержащее только статистически значимые и информативные факторы. Проверить статистическую значимость уравнения и его коэффициентов.
Пункты 4 — 6 относятся к уравнению регрессии, построенному при выполнении пункта 3.
4. Оценить качество и точность уравнения регрессии.
5. Дать экономическую интерпретацию коэффициентов уравнения регрессии и сравнительную оценку силы влияния факторов на результативную переменную Y.
6. Рассчитать прогнозное значение результативной переменной Y, если прогнозные значения факторов составят 75 % от своих максимальных значений. Построить доверительный интервал прогноза фактического значения Y c надежностью 80 %.
Решение. Для решения задачи используется табличный процессор EXCEL.
1.С помощью надстройки «Анализ данных… Корреляция» строим матрицу парных коэффициентов корреляции между всеми исследуемыми переменными (меню «Сервис» ® «Анализ данных…» ® «Корреляция»). На рис. 1изображена панель корреляционного анализа с заполненными полями[1]. Результаты корреляционного анализа приведены в прил. 2 и перенесены в табл. 1.
рис. 1. Панель корреляционного анализа
Таблица 1
Матрица парных коэффициентов корреляции
Y | X1 | X2 | X3 | X4 | |
Y | 1 | ||||
X1 | 0,780235 | 1 | |||
X2 | -0,72516 | -0,62251 | 1 | ||
X3 | -0,53397 | -0,65771 | 0,874008 | 1 | |
X4 | -0,96876 | -0,74333 | 0,736073 | 0,55373 | 1 |
Анализ межфакторных коэффициентов корреляции показывает, что значение 0,8 превышает по абсолютной величине коэффициент корреляции между парой факторов Х2–Х3 (выделен жирным шрифтом). Факторы Х2–Х3 таким образом, признаются коллинеарными.
2. Как было показано в пункте 1, факторы Х2–Х3 являются коллинеарными, а это означает, что они фактически дублируют друг друга, и их одновременное включение в модель приведет к неправильной интерпретации соответствующих коэффициентов регрессии. Видно, что фактор Х2 имеет больший по модулю коэффициент корреляции с результатом Y, чем фактор Х3: ry,x2=0,72516; ry,x3=0,53397; |ry,x2|>|ry,x3| (см. табл. 1). Это свидетельствует о более сильном влиянии фактора Х2 на изменение Y. Фактор Х3, таким образом, исключается из рассмотрения.
Для построения уравнения регрессии значения используемых переменных (Y,X1, X2, X4) скопируем на чистый рабочий лист (прил. 3). Уравнение регрессии строим с помощью надстройки «Анализ данных… Регрессия» (меню «Сервис» ® «Анализ данных…» ® «Регрессия»). Панель регрессионного анализа с заполненными полями изображена на рис. 2.
Результаты регрессионного анализа приведены в прил. 4 и перенесены в табл. 2. Уравнение регрессии имеет вид (см. «Коэффициенты» втабл. 2):
ŷ = 75.44 + 0.0447 ·x1 - 0.0453 ·x2 - 0.24 ·x4
Уравнение регрессии признается статистически значимым, так как вероятность его случайного формирования в том виде, в котором оно получено, составляет 1.04571·10-45 (см. «Значимость F» втабл. 2), что существенно ниже принятого уровня значимости a=0,05.
Вероятность случайного формирования коэффициентов при факторе Х1 ниже принятого уровня значимости a=0,05 (см. «P-Значение» втабл. 2), что свидетельствует о статистической значимости коэффициентов и существенном влиянии этих факторов на изменение годовой прибыли Y.
Вероятность случайного формирования коэффициентов при факторах Х2 и Х4 превышает принятый уровень значимости a=0,05 (см. «P-Значение» втабл. 2), и эти коэффициенты не признаются статистически значимыми.
рис. 2. Панель регрессионного анализа модели Y(X1,X2,X4)
Таблица 2
Результаты регрессионного анализа модели Y(X1, X2, X4)
Регрессионная статистика | |
Множественный R | 0,97292594 |
R-квадрат | 0,946584884 |
Нормированный R-квадрат | 0,944359254 |
Стандартная ошибка | 2,267611945 |
Наблюдения | 76 |
Дисперсионный анализ | ||||||||
df | SS | MS | F | Значимость F | ||||
Регрессия | 3 | 6560,929292 | 2186,98 | 425,31101 | 1,04571E-45 | |||
Остаток | 72 | 370,2286032 | 5,14206 | |||||
Итого | 75 | 6931,157895 | ||||||
Уравнение регрессии | ||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% | |
Y-пересечение | 75,43927547 | 0,998411562 | 75,5593 | 2,545E-70 | 73,44897843 | 77,4295725 | 73,44897843 | 77,42957252 |
X1 | 0,044670594 | 0,01380341 | 3,2362 | 0,0018316 | 0,017154 | 0,07218719 | 0,017154 | 0,072187188 |
X2 | -0,045296701 | 0,421363275 | -0,1075 | 0,914691 | -0,885269026 | 0,79467562 | -0,885269026 | 0,794675624 |
X4 | -0,239566687 | 0,013204423 | -18,1429 | 1,438E-28 | -0,265889223 | -0,2132442 | -0,265889223 | -0,213244151 |
3.По результатам проверки статистической значимости коэффициентов уравнения регрессии, проведенной в предыдущем пункте, строим новую регрессионную модель, содержащую только информативные факторы, к которым относятся:
· факторы, коэффициенты при которых статистически значимы;
· факторы, у коэффициентов которых t‑статистика превышает по модулю единицу (другими словами, абсолютная величина коэффициента больше его стандартной ошибки).
К первой группе относится фактор Х1 ко второй — фактор X4. Фактор X2 исключается из рассмотрения как неинформативный, и окончательно регрессионная модель будет содержать факторы X1, X4.
Для построения уравнения регрессии скопируем на чистый рабочий лист значения используемых переменных (прил. 5) и проведем регрессионный анализ (рис. 3). Его результаты приведены в прил. 6 и перенесены в табл. 3. Уравнение регрессии имеет вид:
ŷ = 75.38278 + 0.044918 ·x1 - 0.24031 ·x4
(см. «Коэффициенты» втабл.3).
рис. 3. Панель регрессионного анализа модели Y(X1, X4)
Таблица 3
Результаты регрессионного анализа модели Y(X1, X4)
Регрессионная статистика | ||||||
Множественный R | 0,972922 | |||||
R-квадрат | 0,946576 | |||||
Нормированный R-квадрат | 0,945113 | |||||
Стандартная ошибка | 2,252208 | |||||
Наблюдения | 76 | |||||
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 2 | 6560,87 | 3280,435 | 646,7175 | 3,65E-47 | |
Остаток | 73 | 370,288 | 5,072439 | |||
Итого | 75 | 6931,158 | ||||
Уравнение регрессии | ||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |||
Y-пересечение | 75,38278 | 0,843142 | 89,40701 | 2,44E-76 | ||
X1 | 0,044918 | 0,013518 | 3,322694 | 0,001395 | ||
X4 | -0,24031 | 0,011185 | -21,4848 | 2,74E-33 |
Уравнение регрессии статистически значимо: вероятность его случайного формирования ниже допустимого уровня значимости a=0,05 (см. «Значимость F» втабл.3).
Статистически значимым признается и коэффициент при факторе Х1 вероятность его случайного формирования ниже допустимого уровня значимости a=0,05 (см. «P-Значение» втабл. 3). Это свидетельствует о существенном влиянии ВВП в паритетах покупательной способностиX1 на изменение годовой прибылиY.
Коэффициент при факторе Х4 (годовой коэффициент младенческой смертности) не является статистически значимым. Однако этот фактор все же можно считать информативным, так как t‑статистика его коэффициента превышает по модулю единицу, хотя к дальнейшим выводам относительно фактора Х4 следует относиться с некоторой долей осторожности.