Н0: R2 = 0,
Н0: R2 > 0.
Для проверки данной гипотезы используется следующая F-
статистика:
F=R2/1-R2*n-m-1/m (2.38)
Величина F при выполнении предпосылок МНК и при справедливости H0 имеет распределение Фишера аналогичное F-статистике (2.37). Действительно, разделив числитель и знаменатель дроби в (2.37) на общую сумму квадратов отклонений ∑(yi −y)2
Очевидно, что показатели F и R2 равны или не равны нулю одновременно. Если F = 0, то R2 = 0, и линия регрессии Y = y является наилучшей по МНК, и, следовательно, величина Y линейно не зависит от X1, Х2, ..., Xm. Для проверки нулевой гипотезы H0: F= 0 при заданном уровне значимости α по таблицам критических точек распределения Фишера находится критическое значение Fкр. = Fα;m;n−m−1. Нулевая гипотеза отклоняется, если F > Fкр.. Это равносильно тому, что R2 > 0, т. е. R2 статистически значим. Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, коэффициент детерминации R2 не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.
Пример:
Пусть, например, при оценке регрессии с двумя объясняющими переменными по 30 наблюдениям R2 = 0.65. Тогда F = 0.65 ⋅ 30−2−1 ≈ 25.07. По таблицам критических точек распределения Фишера найдем F0.05;2;27 = 3.36; F0,01;2;27 = 5.49. Поскольку F набл. = 25.07 > F крит. как при 5%, так и при 1% уровне значимости, то нулевая гипотеза в обоих случаях отклоняется. Если в той же ситуации R2 = 0.4, то F = 9. Предположение о не значимости связи отвергается и здесь. Отметим, что в случае парной регрессии проверка нулевой гипотезы для F-статистики равносильна проверке нулевой гипотезы для t-статистики коэффициента корреляции В этом случае F-статистика равна квадрату t-статистики. Самостоятельную важность коэффициент R2 приобретает в случае множественной линейной регрессии.
2.9 Проверка равенства двух коэффициентов детерминации
Другим важным направлением использования статистики Фишера является проверка гипотезы о равенстве нулю не всех коэффициентов регрессии одновременно, а только некоторой части этих коэффициентов. Данное использование статистики F позволяет оценить обоснованность исключения или добавления в уравнение регрессии некоторых наборов объясняющих переменных, что особенно важно при совершенствовании линейной регрессионной модели. Пусть первоначально построенное по n наблюдениям уравнение регрессии имеет вид
Y = b0 + b1X1 + b2X2 + ... + bm-kXm-k + ... + bmXm , (6.39)
и коэффициент детерминации для этой модели равен R12. Исключим из рассмотрения k объясняющих переменных (не нарушая общности, положим, что это будут k последних переменных). По первоначальным n наблюдениям для оставшихся факторов построим другое уравнение регрессии:
Y = с0 + с1X1 + с2X2 + ... + сm-kXm-k, (6.40)
для которого коэффициент детерминации равен R22. Очевидно, R2 ≤R2, так как каждая дополнительная переменная объясняет часть (пусть незначительную) рассеивания зависимой переменной. Возникает вопрос: существенно ли ухудшилось качество описания поведения зависимой переменной Y. На него можно ответить, проверяя гипотезу H0: R12 − R22 = 0 и используя статистику
F=R2/1-R2*n-m-1/k (2.41)
В случае справедливости H0 приведенная статистика F имеет распределение Фишера с числами степеней свободы ν1 = k , ν2 = n − m − 1.
Здесь (R12 −R22) − потеря качества уравнения в результате отбрасывания k объясняющих переменных; k − число дополнительно появившихся степеней свободы; (1−R12)/(n−m−1) − необъясненная дисперсия первоначального уравнения. Следовательно, мы попадаем в ситуацию аналогичную (6.37). По таблицам критических точек распределения Фишера находят Fкр. = Fα;m;n−m−1 (α − требуемый уровень значимости).
Если рассчитанное значение Fнабл. статистики (6.41) превосходит Fкр., то нулевая гипотеза о равенстве коэффициентов детерминации (фактически об одновременном равенстве нулю отброшенных k коэффициентов регрессии) должна быть отклонена. В этом случае одновременное исключение из рассмотрения k объясняющих переменных некорректно, так как R12существенно превышаетR22. Это означает, что общее качество первоначального уравнения регрессии существенно лучше качества уравнения регрессии с отброшенными переменными, так как оно объясняет гораздо большую долю разброса зависимой переменной. Если же, наоборот, наблюдаемая F-статистика невелика (т. е. меньше, чем Fкр.), то это означает, что разность R12− R22 незначительна. Следовательно, можно сделать вывод, что в этом случае одновременное отбрасывание k объясняющих переменных не привело к существенному ухудшению общего качества уравнения регрессии, и оно вполне допустимо. Аналогичные рассуждения могут быть использованы и по поводу обоснованности включения новых k объясняющих переменных. В этом случае рассчитывается F-статистика. Если она превышает критическое значение Fкр., то включение новых переменных объясняет существенную часть необъясненной ранее дисперсии зависимой переменной.
Поэтому такое добавление оправдано. Однако отметим, что добавлять переменные целесообразно, как правило, по одной. Кроме того, при добавлении объясняющих переменных в уравнение регрессии логично использовать скорректированный коэффициент детерминации (6.35), т. к. обычный R2 всегда растет при добавлении новой переменной; а в скорректированном R2одновременно растет величина m, уменьшающая его. Если увеличение доли объясненной дисперсии при добавлении новой переменной незначительно, то R2 может уменьшиться. В этом случае добавление указанной переменной нецелесообразно. Заметим, что для сравнения качества двух уравнений регрессии по коэффициенту детерминации R2 обязательным является требование, чтобы зависимая переменная была представлена в одной и той же форме, и число наблюдений n для обеих моделей было одинаковым. Например, пусть один и тот же показатель Y моделируется двумя уравнениями:
линейным Y = β0 + β1X1 + β2X2 + ε и
лог-линейным lnY = β0 + β1X1 + β2X2 + ε.
Тогда их коэффициенты детерминации R12 и R22 рассчитываются по формулам:
Так как знаменатели дробей в приведенных соотношениях различны, то прямое сравнение коэффициентов детерминации в этом случае будет некорректным.
2.10 Проверка гипотезы о совпадении уравнений регрессии для двух выборок.
Еще одним направлением использования F-статистики является проверка гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений. Одним из распространенных тестов проверки данной гипотезы является тест Чоу, суть которого состоит в следующем. Пусть имеются две выборки объемами n1 и n2 соответственно.
Для каждой из этих выборок оценено уравнение регрессии вида:
Y = b0k + b1kX1 + b2kX2 + ... + bmkXm + ek, k = 1, 2. (6.44)
Проверяется нулевая гипотеза о равенстве друг другу соответствующих коэффициентов регрессии
H0: bj1 = bj2, j = 0, 1, ..., m.
Другими словами, будет ли уравнение регрессии одним и тем же для обеих выборок?
Пусть суммы ∑ei2k (k = 1, 2) квадратов отклонений значений yi от линий регрессии равны S1 и S2 соответственно для первого и второго уравнений регрессии. Пусть по объединенной выборке объема (n1 + n2) оценено еще одно уравнение регрессии, для которого сумма квадратов отклонений yi от уравнения регрессии равна S0. Для проверки Н0 в этом случае строится следующая F-статистика:
В случае справедливости H0 построенная F-статистика имеет распределение Фишера с числами степеней свободы ν1 = m + 1; ν2 = n1 + + n2 − 2m − 2 . Очевидно, F-статистика близка к нулю, если S0 ≈ S1 + S2 , и это фактически означает, что уравнения регрессии для обеих выборок практически одинаковы. В этом случае F < Fкрит.=Fб;н1;н2. Если же F > Fкрит., то нулевая гипотеза отклоняется. Приведенные выше рассуждения особенно важны для ответа на вопрос, можно ли за весь рассматриваемый период времени построить единое уравнение регрессии (рис. 6.1, а), или же нужно разбить временной интервал на части и на каждой из них строить свое уравнение регрессии (рис. 6.1).
Некоторые причины необходимости использования различных уравнений регрессии для описания изменения одной и той же зависимой переменной на различных временных интервалах будут анализироваться ниже при рассмотрении фиктивных переменных и временных рядов.
РАЗДЕЛ 3.
Линейная регрессия
В тех случаях, когда из природы процессов в модели или из данных наблюдений над ней следует вывод о нормальном законе распределения двух СВ- Y и X, из которых одна является независимой, т. е. Y является функцией X, то возникает соблазн определить такую зависимость аналитически. В случае успеха нам будет намного проще вести моделирование. Конечно, наиболее заманчивой является перспектива линейной зависимости типа Y = a + b(X .Подобная задача носит название задачи регрессионного анализа и предполагает следующий способ решения. Выдвигается следующая гипотеза:H0: случайная величина Y при фиксированном значении величины распределена нормально с математическим ожиданием.