Различные методы, которые могут быть использованы для смягчения мультиколлинеарности, делятся на две категории: к первой категории относятся попытки повысить степень выполнения четырех условий, обеспечивающих надежность оценок регрессии; ко второй категории относится использование внешней информации, но можно привнести или усилить автокорреляцию, но она может быть нейтрализована. Кроме того, можно привнести (или усилить) смещение, вызванное ошибками измерения, если поквартальные данные измерены с меньшей точностью, чем соответствующие ежегодные данные.
13. Включение качественных признаков с регрессионную модель: фиктивные переменные, множественные фиктивные переменные, перекрестные фиктивные переменные
Качественные факторы включаются в эконометрические модели с помощью фиктивных переменных. Под фиктивной переменной понимают переменную, которая равна 1 для конкретной части выборочной совокупности, и 0 - для оставшейся части.
Переменные, полученные путем перемножения с фиктивными, обычно называют перекрестными фиктивными переменными.
Множественные фиктивные переменные – фиктивные переменные, которые принима.т не 2, а более значений.
Достаточно часто качественные объясняющие переменные принимают не два, а несколько (m) значений.
14. Прогнозирование с помощью регрессионной модели. Точечный и интервальный прогнозы
Прогноз получают путем подстановки в регрессионное уравнение Y = a0 + a1x.
Здесь a0, a1 — параметры, которые оцениваются из статистических данных. Они называются коэффициентами регрессии.
В случае же совместного влияния на Y нескольких факторов (x1, x2, ..., xn) уравнение принимает вид
Y = a0 + a1x1 + ... + anxn.
В первом случае имеем парную Р., во втором — множественную) переменных. Результат представляет собой оценку среднего значения зависимой переменной при данных уровнях фактор-аргументов. Для уравнения регрессии обычно определяют доверительные интервалы, которые также можно использовать в прогнозировании.
точечный прогноз — прогноз, которым указывается единственное значение прогнозируемого показателя. Конкретное значение.
интервальный прогноз — прогноз, которым указывается не единственное значение прогнозируемого показателя (или вектор значений), а некоторый интервал. Пример И. п.: “Население города N. составит в 2000 г. от 30 до 35 тыс. человек”.
15. Нарушение условия гомоскедастичности: гетероскедастичность, автокорреляция
Гетероскедастичность и автокорреляция это нарушения условия гомоскедастичности (второго и третьего условия Гаусса-Маркова). Обычно рассматривают два варианта нарушения условия гомоскедастичности:
1. Ошибки имеют различную дисперсию для различных наблюдений - Гетероскедастичность. Гетероскедастичность – «неодинаковый разброс» теоретическое распределение случайного члена является разным для различных наблюдений в выборке
Например, если рассматривать зависимость расходов на отдых от заработной платы, то логично предполагать, что разброс будет выше для более обеспеченных людей.
2. Ошибки имеют постоянную дисперсию, но неявляются независимыми Данное явление носит название автокорреляции
Общий случай простое преобразования для того, чтобы добиться гомоскедастичности В общем случае:
1. Рассчитывают МНК-оценки коэффициентов регрессии
2. Находят остатки ei и их квадраты ei2
3. Находят логарифмы квадратов остатков ln(ei2)
4. Рассчитывают регрессию ln(ei2)
5. Получают прогноз ln(ei2)прог
6. Находят веса наблюдений wi= exp(ln(ei2)прог)
7. Полученные веса wi используют во взвешенном методе наименьших квадратов
Последствия гетероскедастичности и автокорреляции приводит к неэффективности получаемых коэфициентов регресии (но они остаются несмещенны) и к неправильному расчету наблюдаемых t и F-статистик.
16. Обобщенный метод наименьших квадратов, теорема Айткена
Применение обычного метода наименьших квадратов при нарушении условия гомоскедастичности приводит к следующим отрицательным последствиям:
1. оценки неизвестных коэффициентов β неэффективны, то есть существуют другие оценки, которые являются несмещенными и имеют меньшую дисперсию.
2. стандартные ошибки коэффициентов регрессии будут занижены, а, следовательно, t -статистики – завышены, и будет получено неправильное представление о точности уравнения регрессии.
Обобщенный метод наименьших квадратов
Рассмотрим метод оценивания при нарушении условия гомоскедастичности, матрица имеет вид β= (ХТ Ω-1 Х)-1 ХТ Ω-1у
Расчёт неизвестных коэффициентов регрессии по данной формуле называют обобщённым методом наименьших квадратов (ОМНК).
Теорема Айткена: при нарушении предположения гомоскедастичности оценки, полученные обобщенным методом наименьших квадратов, являются несмещенными и наиболее эффективными (имеющими наименьшую вариацию). На практике матрица Ω практически никогда не известна. Поэтому часто пытаются каким-либо методом оценить оценки матрицы Ω и использовать их для оценивания. Этот метод носит название доступного обобщенного метода наименьших квадратов.
17. Тесты на гетероскедастичность: Спирмена, Бреуша-Пагана, Уайта, Голдфельда-Квандта
Ранговая корреляция. Тест ранговой корреляции Спирмена
• Ранг наблюдения переменной - номер наблюдения переменной в упорядоченной по возрастанию последовательности.
• Тест ранговой корреляции Спирмена тест на гетероскедастичность, устанавливающий, что стандартное отклонение остаточного члена регрессии имеет нестрогую линейную зависимость с объясняющей переменной.
При выполнении теста ранговой корреляции Спирмена предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения x, и поэтому в регрессии, оцениваемой с помощью МНК, абсолютные величины остатков и значения х будут коррелированны. Данные по х и остатки упорядочиваются. Если предположить, что соответствующий коэффициент корреляции генеральной совокупности равен нулю, т.е. гетероскедастичность отсутствует, то коэффициент ранговой корреляции имеет нормальное распределение с математическим ожиданием 0 и дисперсией 1/(n - 1) в больших выборках.
Тест Голдфелда-Квандта
• Наиболее популярным формальным критерием является критерий, предложенный С. Голдфелдом и Р. Квандтом.
• При проведении проверки по этому критерию предполагается, что стандартное отклонение распределения вероятностей u пропорционально значению х в этом наблюдении.
• Предполагается также, что случайный член распределен нормально и не подвержен автокорреляции.
• Иными словами тест Голдфелда- Квандта - тест на гетероскедастичность, устанавливающий, что стандартное отклонение остаточного члена регрессии растет, когда растет объясняющая переменная.
• Все n наблюдений в выборке упорядочиваются по величине х, после чего оцениваются отдельные регрессии для первых n’ и для последних n’ наблюдений;
• Средние (n- 2n’) наблюдений отбрасываются.
• Если предположение относительно природы гетероскедастичности верно, то дисперсия и в последних n’ наблюдениях будет больше, чем в первых n’ , и это будет отражено в сумме квадратов остатков в двух указанных "частных" регрессиях.
• Обозначим суммы квадратов остатков в регрессиях для первых n’ и последних n’ наблюдений соответственно через RSS1, и RSS2,
• рассчитаем отношение RSS2/RSS1, которое имеет распределение F с (n’ - k - 1 ) и (n’ - k - 1 ) степенями свободы, где k -число объясняющих переменных в регрессионном уравнении.
• Метод Голдфелда-Квандта может также использоваться для проверки на гетероскедастичность при предположении, что σ , обратно пропорционально х,.
• Используется та же процедура, что и описанная выше, но тестовой статистикой теперь является показатель RSS1/RSS2, который вновь имеет F-распределение с ( n’- k - 1) и (n’ - k -1) степенями свободы.
• Обозначим суммы квадратов остатков в регрессиях для первых n’ и последних n’ наблюдений соответственно через RSS1, и RSS2,
• рассчитаем отношение RSS2/RSS1, которое имеет распределение F с (n’ - k - 1 ) и (n’ - k - 1 ) степенями свободы, где k -число объясняющих переменных в регрессионном уравнении
• Таким образом, тест Голдфелда-Квандта состоит из трех этапов:
1. все наблюдения в выборке упорядочиваются по возрастанию х.
2. берутся первые и последние n наблюдений (треть от всех), оцениваются две различные регрессии и находятся RSS1 и RSS2
3. Для отношения RSS2/RSS1, проводят тест Фишера с (n’ - k - 1) верхними и (n’ - k - 1) нижними степенями свободы, где k - количество объясняющих переменных в регрессиях.
Тест Бреуш-Пагана
Тест применим в предположении, что: Дисперсии зависят от некоторых дополнительных переменных:
1. Строится уравнение регрессии: и вычисляются остатки:
2. Вычисляют оценку дисперсии остатков:
3. Строят вспомогательное уравнение регрессии
4. Для вспомогательного уравнения регрессии определяют объясненную часть вариации RSS.
5. Находим тестовую статистику:
6. Если верна гипотеза H0: гомоскедастичность остатков, то статистика BP имеет распределение. Т.е. о наличии гетероскедастичности остатков на уровне значимости a свидетельствует:
Замечания
При гетероскедастичность может быть скорректирована:
Тест Уайта
Предполагается, что дисперсии связаны с объясняющими переменными в виде:
Т.к. дисперсии неизвестны, то их заменяют оценками квадратов отклонений ei2.
Алгоритм применения (на примере трех переменных)
1. Строится уравнение регрессии: и вычисляются остатки.
2. Оценивают вспомогательное уравнение регрессии:
3. Определяют из вспомогательного уравнения тестовую статистику