1. Построить поле рассеяния наблюдаемых значений показателей и на основе его визуального наблюдения выдвинуть гипотезу о виде статистической зависимости потребительских расходов у от денежных доходов х; записать эту гипотезу в виде математической модели.
2. Используя метод наименьших квадратов найти точечные оценки неизвестных параметров модели, записать найденное уравнение регрессии и построить график функции регрессии.
3. Найти коэффициент парной корреляции между денежными доходами и потребительскими расходами; проверить его значимость.
4. Найти точечный и интервальный прогноз среднемесячных потребительских расходов в 10-ом субъекте РФ увеличится на 30%.
5. Привести содержательную интерпретацию полученных результатов.
Решение
5.1 Построение математической модели. Оценка неизвестных параметров методом наименьших квадратов. Полем рассеяния называется множество точек на плоскости, координаты которых соответствуют наблюдаемым значениям исследуемых показателей. В нашем примере хi – среднедушевые денежные доходы, yi – среднедушевые потребительские расходы в i-м субъекте РФ, i = 1,…,15. Таким образом, поле рассеяния состоит из 15-ти точек с координатами (xi,yi), которые показаны на рис.
Визуальный анализ поля рассеяния позволяет выдвинуть гипотезу о линейной зависимости потребительских расходов у от денежных доходов х и записать эту зависимость в виде линейной модели
у = α + βх + u,
где α, β - неизвестные постоянные коэффициенты, а u – случайная величина, характеризующая отклонения реальных значений потребительских расходов от их теоретических значений α + βх. Случайная величина u называется случайным отклонением или случайным возмущением модели. Ее включение в модель призвано отразить:
а) влияние не учтенных в модели факторов, влияющих на размер потребительских расходов;
б) элемент случайности и непредсказуемости человеческих реакций;
в) ошибки наблюдений и измерений.
5.2 После формулировки математической модели основная задача состоит в получении оценок неизвестных параметров α и β по результатам наблюдений над переменными х и у, т.е. задача состоит в получении так называемого уравнения регрессии у = a + bх, являющегося некоторой реализацией модели, в котором коэффициенты а и b есть оценки неизвестных параметров α и β соответственно. Оценки а и b можно искать по следующим формулам:
Для удобства вычисления оценок искомых коэффициентов модели составляется табл.1, в которой столбцы "у", "у - у", "(у - у)2" заполняются после нахождения уравнения регрессии.
Табл.1
Номер субъекта РФ | х | у | х2 | ху | у2 | ŷ | ŷ-у | (ŷ-у)2 |
1 | 1,57 | 1,29 | 2,465 | 2,025 | 1,664 | 1,309 | 0,019 | 0,000 |
2 | 1,30 | 1,15 | 1,690 | 1,495 | 1,323 | 1,125 | -0,025 | 0,001 |
3 | 1,75 | 1,30 | 3,063 | 2,275 | 1,690 | 1,432 | 0,132 | 0,017 |
4 | 1,66 | 1,36 | 2,756 | 2,258 | 1,850 | 1,371 | 0,011 | 0,000 |
5 | 1,75 | 1,67 | 3,063 | 2,923 | 2,789 | 1,432 | -0,238 | 0,057 |
6 | 1,79 | 1,59 | 3,204 | 2,846 | 2,528 | 1,459 | -0,131 | 0,017 |
7 | 1,33 | 1,08 | 1,769 | 1,436 | 1,166 | 1,145 | 0,065 | 0,004 |
8 | 1,58 | 1,28 | 2,496 | 2,022 | 1,638 | 1,316 | 0,036 | 0,001 |
9 | 2,24 | 1,65 | 5,018 | 3,696 | 2,723 | 1,767 | 0,117 | 0,014 |
10 | 2,47 | 1,76 | 6,101 | 4,347 | 3,098 | 1,924 | 0,164 | 0,027 |
11 | 2,29 | 1,70 | 5,244 | 3,893 | 2,890 | 1,801 | 0,101 | 0,010 |
12 | 2,07 | 1,88 | 4,285 | 3,892 | 3,534 | 1,651 | -0,229 | 0,053 |
13 | 2,43 | 1,80 | 5,905 | 4,374 | 3,240 | 1,897 | 0,097 | 0,009 |
14 | 3,51 | 2,74 | 12,320 | 9,617 | 7,508 | 2,635 | -0,105 | 0,011 |
15 | 2,21 | 1,76 | 4,884 | 3,890 | 3,098 | 1,746 | -0,014 | 0,000 |
cymm | 29,95 | 24,01 | 64,262 | 50,989 | 40,738 | 24,010 | 0,000 | 0,222 |
Находим оценки а и b. Получаем:
хср = Σхi/15 =29,95/15 = 1,997 (тыс.руб.) – среднее значение среднедушевых доходов;
уср = Σуi/15 = 24,01/15 = 1,601 (тыс.руб.) – среднее значение среднедушевых потребительских расходов.
Следовательно, b = 0,683
а = уср – bxcp = 0,236
Таким образом, искомое уравнение регрессии примет вид
ŷ = 0,683x + 0,236
Найденное уравнение регрессии есть уравнение прямой, которая изображена на рис.
5.3. Нахождение коэффициента корреляции. Мерой зависимости между переменными х и у может служить выборочный коэффициент парной корреляции, который обозначается через rxy и определяется по формуле:
Подставляя соответствующие значения из последней строки табл.1, получаем rxy = 0,951, rxy > 0 и близко к 1, следовательно, связь сильная положительная, т.е. при увеличении доходов, расходы растут.
Для того, чтобы с большей уверенностью делать вывод о наличии или отсутствии линейной взаимосвязи между переменными х и у, разработан критерий проверки того, существенно ли отличие коэффициента корреляции от нуля или, другими словами, значимо ли значение коэффициента корреляции. Если в результате проверки выясняется, что коэффициент корреляции существенно отличается от нуля, то, несмотря даже на не очень близкое значение коэффициента к единице, делается вывод о наличии линейной взаимосвязи между переменными х и у. Если же подтверждается несущественное отличие rxy от нуля, то, не смотря на возможно достаточно большое значение коэффициента, делается вывод об отсутствии линейной взаимосвязи между переменными. Проверка существенности отличия коэффициента корреляции от нуля проводится по схеме:
то гипотеза о существенном отличии коэффициента корреляции от нуля принимается, в противном случае отвергается.
Здесь t1-α/2,n-2 – квантиль распределения Стьюдента, α - уровень значимости или уровень доверия, n – число наблюдений, (n-2) – число степеней свободы. Значение α задается исследователем зависимости между х и у. Примем α = 0,05, тогда t1-α/2,n-2 = t0,975,13 = 2,1604
Следовательно, коэффициент корреляции существенно отличается от нуля и существует сильная линейная связь между х и у. Т.е. если мы будем проводить многократное повторение эксперимента по исследованию зависимости между доходами и расходами, всякий раз выбирая различные группы из 15 субъектов РФ, то в 95% этих экспериментов будет обнаружена тесная линейная зависимость между х и у, т.е. в 95% случаев коэффициент корреляции rxy будет существенно отличатся от нуля.
5.4 Нахождение точечных и интервальных прогнозов. Точечным прогнозом значения зависимой переменной у, соответствующего некоторому значению независимой переменной х = х0, называется значение ŷ0, получаемое путем подстановки в уравнение регрессии х = х0, т.е.
ŷ0 = ŷ(х0)= a + bx0 – точечный прогноз.
Найдем точечный прогноз среднемесячных потребительских расходов в 10-ом субъекте РФ в будущем периоде, что среденемесячные денежные доходы в этом субъекте увеличатся на 30%, т.е.
х0 = х10 + 0,3´х10 = 1,3´х10 = 1,3´2,47 = 3,21
ŷ0 = 0,236 + 0,683´3,21 = 2,431 (тыс.руб.).
Таким образом, если среднемесячные денежные доходы в 10-м субъекте РФ увеличатся на 30%, то потребительские расходы в этом субъекте составят 2,431 тыс.руб.
Интервальным прогнозом зависимой переменной у, соответствующим некоторому значению независимой переменной х = х0, называется доверительный интервал, границы которого находятся по формуле:
ŷв.н. = ŷ(х0) ± t1-α/2,n-2Sŷ,
где ув, ун – соответственно верхняя и нижняя границы доверительного интервала;
ŷ(х0) – точечный прогноз;
t1-α/2,n-2 –квантиль распределения Стьюдента;
(1-α/2) – доверительная вероятность;
(n-2) – число степеней свободы;
Доверительный интервал – это такой интервал, в котором с заданной вероятностью будет находиться прогнозируемое значение зависимой переменной у.
Найдем интервальный прогноз среднемесячных потребительских расходов в 10-м субъекте РФ в будущем периоде предполагая, что среднемесячные денежные доходы в этом субъекте РФ увеличатся на 30%.
Ранее вычислено ожидаемое значение денежных доходов х0 = 3,21 тыс.руб. Пусть α = 0,05, тогда 1-α = 0,95; t1-α/2,n-2 = t0,975,13 = 2,1604;
(х0 - хср)2 = (3,21 – 1,997)2 = 1,475
S(xi - xcp)2 = Sхi2 – n(xcp)2 = 64,262- 15´1,9972 = 4,461.