Напомним, что z′jj− j-й диагональный элемент матрицы Поскольку истинное значение дисперсии σ2 по выборке определить невозможно, оно заменяется соответствующей несмещенной оценкой
где m − количество объясняющих переменных модели. Отметим, что иногда в формуле (6.22) знаменатель представляют в виде n − m − 1 = = n − k, подразумевая под k число параметров модели (подлежащих определению коэффициентов регрессии). Следовательно, по выборке мы можем определить лишь выбороч-ные дисперсии эмпирических коэффициентов регрессии:
Sb2j= S2 z′jj = n−∑mei2−1 z′jj, j = 0, 1, …, m. (2.23)
Как и в случае парной регрессии, S = S2 называется стандартной ошибкой регрессии. Sbj = S2bj называется стандартной ошибкой коэффициента регрессии. В частности, для уравнения Y) =b0 +b1X1 +b2X2 с двумя объясняющими переменными дисперсии и стандартные ошибки коэффициентов вычисляются по следующим формулам (Приложение В) .Здесь r12 = rx1x2− выборочный коэффициент корреляции между
объясняющими переменными Х1 и Х2.
2.4 Интервальные оценки коэффициентов теоретического уравнения регресcии
По аналогии с парной регрессией после определения точечных оценок bj коэффициентов βj (j = 0, 1, …, m) теоретического уравнения регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов. Для построения интервальной оценки коэффициента βj строится t-статистика имеющая распределение Стьюдента с числом степеней свободы ν = = n − m − 1 (n − объем выборки, m − количество объясняющих переменных в модели). Пусть необходимо построить 100(1 − α)%-ный доверительный интервал для коэффициента βj. Тогда по таблице критических точек распределения Стьюдента по требуемому уровню значимости α и числу степеней свободы ν находят критическую точку tб , n−m−1=2
Таким образом, доверительный интервал, накрывающий с надежностью (1 − α) неизвестное значение параметра βj, Не вдаваясь в детали, отметим, что по аналогии с парной регрессией (см. раздел 5.5) может быть построена интервальная оценка для среднего значения предсказания:
В матричной форме это неравенство имеет вид:
2.5 Анализ качества эмпирического уравнения множественной линейной регрессии
Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей задачей эконометрического анализа является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки (по крайней мере, на начальной стадии). Это нашло отражение практически во всех современных эконометрических пакетах. Проверка статистического качества оцененного уравнения регрессии проводится по следующим направлениям:
• проверка статистической значимости коэффициентов уравнения
регрессии;
• проверка общего качества уравнения регрессии;
• проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок
МНК).
2.6 Проверка статистической значимости коэффициентов уравнения регрессии
Как и в случае парной регрессии ,статистическая значимость коэффициентов множественной линейной регрессии с m объясняющими переменными проверяется на основе t-статистики: t=bj/Sbj (2.33)
Имеющей в данной ситуации распределение Стьюдента с числом степеней свободы ν = n − m − 1 (n − объем выборки). При требуемом уро-вне значимости α наблюдаемое значение t-статистики сравнивается с критической точкой распределения Стьюдента.
Коэффициент bj считается статистически незначимым (статистически близким к нулю). Это означает, что фактор Xj фактически линейно не связан с зависимой переменной Y. Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Не оказывая серьезного влияния на зависимую переменную, он лишь искажает реальную картину взаимосвязи. Поэтому после установления того факта, что коэффициент bj статистически незначим, рекомендуется исключить из уравнения регрессии переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной. Зачастую строгая проверка значимости коэффициентов заменяется простым сравнительным анализом.
• Если |t| < 1 ( bj < Sbj ), то коэффициент статистически незначим.
• Если 1 < |t| < 2 ( bj < 2Sbj ), то коэффициент относительно значим. В данном случае рекомендуется воспользоваться таблицами.
• Если 2 < |t| < 3, то коэффициент значим. Это утверждение является гарантированным при числе степеней ν > 20 и α ≥ 0.05 (см. таблицу критических точек распределения Стьюдента).
• Если |t| > 3, то коэффициент считается сильно значимым. Вероятность ошибки в данном случае при достаточном числе наблюдений не превосходит 0.001.
2.7 Проверка общего качества уравнения регрессии
После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации R2, который в общем случае рассчитывается по формуле:
R2=1-∑ei2/∑(yi-y)2 (2.34)
Суть данного коэффициента как доли общего разброса значений зависимой переменной Y, объясненного уравнением регрессии. Как отмечалось, в общем случае 0 ≤ R2 ≤ 1. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Поэтому естественно желание построить регрессию с наибольшим R2. Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2.Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. Это уменьшает (в худшем случае не увеличивает) область неопределенности в поведении Y. Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы. Вводится так называемый скорректированный (исправленный) коэффициент детерминации
Можно заметить, что ∑(yi −y)2/(n−1) является несмещенной оценкой общей дисперсии − дисперсии отклонений значений переменной Y от y. При этом число ее степеней свободы равно (n −1). Одна степень свободы теряется при вычислении y. ∑ei2 /(n−m−1) является несмещенной оценкой остаточной дисперсии − дисперсии случайных отклонений (отклонений точек наблюдений от линии регрессии). Ее число степеней свободы равно (n−m−1). Потеря (m + 1) степени свободы связана с необходимостью решения системы (m + 1) линейного уравнения при определении коэффициентов эмпирического уравнения регрессии. Попутно заметим, что несмещенная оценка объясненной дисперсии (дисперсии отклонений точек на линии регрессии от y) имеет число степеней свободы, равное разности степеней свободы общей дисперсии и остаточной дисперсии:
(n − 1) − (n − m − 1) = m.
Из (2.36) очевидно, что R2 <R2для m > 1. С ростом значения m скорректированный коэффициент детерминации R2 растет медленнее, чем (обычный) коэффициент детерминации R2. Другими словами, он корректируется в сторону уменьшения с ростом числа объясняющих переменных. Нетрудно заметить, что R2 =R2только при R2 = 1.
R2 может принимать отрицательные значения (например, при R2 = 0). Доказано, что R2 увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации. Обычно в эконометрических пакетах приводятся данные как по R2, так и по R2, являющиеся суммарными мерами общего качества уравнения регрессии. Однако не следует абсолютизировать значимость коэффициентов детерминации. Существует достаточно примеров неправильно специфицированных моделей, имеющих высокие коэффициенты детерминации (обсудим данную ситуацию позже). Поэтому коэффициент детерминации в настоящее время рассматривается лишь как один из ряда показателей, который нужно проанализировать, чтобы уточнить строящуюся модель.
2.8 Анализ статистической значимости коэффициента детерминации
После оценки индивидуальной статистической значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость коэффициентов. Такой анализ осуществляется на основе проверки гипотезы об общей значимости − гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:
Н0: β1 = β2 = … = βm = 0.
Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных Х1, Х2, …, Хm модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравнения регрессии − невысоким. Проверка данной гипотезы осуществляется на основе дисперсионного анализа − сравнения объясненной и остаточной дисперсий. Н0: (объясненная дисперсия) = (остаточная дисперсия),
Н1: (объясненная дисперсия) > (остаточная дисперсия).
Для этого строится F-статистика:
F= ∑ki2/m/∑ei2/(n-m-1)=∑(yi-y)2/m/∑(yi-yi)2/(n-m-1) (2.37)
где ∑ki2/m − объясненная дисперсия; ∑ei2/(n−m−1) − остаточная дисперсия. При выполнении предпосылок МНК построенная F-статистика имеет распределение Фишера с числами степеней свободы ν1 = = m, ν2 = n − m − 1. Поэтому, если при требуемом уровне значимости α Fнабл. > Fкр. = Fα;m;n−m−1 (где Fα;m;n−m−1 − критическая точка распределения Фишера), то Н0 отклоняется в пользу Н1. Это означает, что объясненная дисперсия существенно больше остаточной дисперсии, а следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной Y. Если Fнабл. < Fкр. = Fα;m;n−m−1, то нет оснований для отклонения Н0. Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основания считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко. Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значимости коэффициента детерминации R2: