Наиболее распространенным в практике статистического оценивания параметров уравнений регрессии является метод наименьших квадратов. Этот метод основан на ряде предпосылок относительно природы данных и результатов построения модели. Основные из них - это четкое разделение исходных переменных на зависимые и независимые, некоррелированность факторов, входящих в уравнения, линейность связи, отсутствие автокорреляции остатков, равенство их математических ожиданий нулю и постоянная дисперсия. Эмпирические данные не всегда обладают такими характеристиками, т.е. предпосылки МНК нарушаются. Применение этого метода в чистом виде может привести к таким нежелательным результатам, как смещение оцениваемых параметров, снижение их состоятельности, устойчивости, а в некоторых случаях может и вовсе не дать решения. Для смягчения нежелательных эффектов при построении регрессионных уравнений, повышения адекватности моделей существует ряд усовершенствований МНК, которые применяются для данных нестандартной природы.
Одной из основных гипотез МНК является предположение о равенстве дисперсий отклонений еi, т.е. их разброс вокруг среднего (нулевого) значения ряда должен быть величиной стабильной. Это свойство называется гомоскедастичностью. На практике дисперсии отклонений достаточно часто неодинаковы, то есть наблюдается гетероскедастичность. Это может быть следствием разных причин. Например, возможны ошибки в исходных данных. Случайные неточности в исходной информации, такие как ошибки в порядке чисел, могут оказать ощутимое влияние на результаты. Часто больший разброс отклонений єi, наблюдается при больших значениях зависимой переменной (переменных). Если в данных содержится значительная ошибка, то, естественно, большим будет и отклонение модельного значения, рассчитанного по ошибочным данным. Для того, чтобы избавиться от этой ошибки нам нужно уменьшить вклад этих данных в результаты расчетов, задать для них меньший вес, чем для всех остальных. Эта идея реализована во взвешенном МНК.
Пусть на первом этапе оценена линейная регрессионная модель с помощью обычного МНК. Предположим, что остатки еi независимы между собой, но имеют разные дисперсии (поскольку теоретические отклонения еi нельзя рассчитать, их обычно заменяют на фактические отклонения зависимой переменной от линии регрессии ^., для которых формулируются те же исходные требования, что и для єi). В этом случае квадратную матрицу ковариаций cov(ei, ej) можно представить в виде:
где cov(ei, ej)=0 при i¹j; cov(ei, ej)=S2; п - длина рассматриваемого временного ряда.
Если величины
известны, то далее можно применить взвешенный МНК, используя в качестве весов величины и минимизируя суммуФормула Q, записана для парной регрессии; аналогичный вид она имеет и для множественной линейной регрессии. При использовании IVLS оценки параметров не только получаются несмещенными (они будут таковыми и для обычного МНК), но и более точными (имеют меньшую дисперсию), чем не взвешенные оценки.
Проблема заключается в том, чтобы оценить величины s2, поскольку заранее они обычно неизвестны. Поэтому, используя на первом этапе обычный МНК, нужно попробовать выяснить причину и характер различий дисперсий еi. Для экономических данных, например, величина средней ошибки может быть пропорциональна абсолютному значению независимой переменной. Это можно проверить статистически и включить в расчет МНК веса, равные
.Существуют специальные критерии и процедуры проверки равенства дисперсий отклонений. Например, можно рассмотреть частное от деления cумм самых больших и самых маленьких квадратов отклонений, которое должно иметь распределение Фишера в случае гомоскедастичности.
Использование взвешенного метода в статистических пакетах, где предоставлена возможность задавать веса вручную, позволяет регулировать вклад тех или иных данных в результаты построения моделей. Это необходимо в тех случаях, когда мы априорно знаем о не типичности какой-то части информации, т.е. на зависимую переменную оказывали влияние факторы, заведомо не включаемые в модель. В качестве примера такой ситуации можно привести случаи стихийных бедствий, засух. При анализе макроэкономических показателей (ВНП и др.) данные за эти годы будут не совсем типичными. В такой ситуации нужно попытаться исключить влияние этой части информации заданием весов. В разных статистических пакетах приводится возможный набор весов. Обычно это числа от О до 100. По умолчанию все данные учитываются с единичными весами. При указании веса меньше 1 мы снижаем вклад этих данных, а если задать вес больше единицы, то вклад этой части информации увеличится. Путем задания весового вектора мы можем не только уменьшить влияние каких - либо лет из набора данных, но и вовсе исключить его из анализа. Итак, ключевым моментом при применении этого метода является выбор весов. В первом приближении веса могут устанавливаться пропорционально ошибкам не взвешенной регрессии.[1]
При статистическом моделировании экономических ситуаций часто необходимо построение систем уравнений, когда одни и те же переменные в различных регрессионных уравнениях могут одновременно выступать, с одной стороны, в роли результирующих, объясняемых переменных, а с другой стороны - в роли объясняющих переменных. Такие системы уравнений принято называть системами одновременных уравнений. При этом в соотношения могут входить переменные, относящиеся не только к текущему периоду t, но и к предшествующим периодам. Такие переменные называются лаговыми. Переменные за предшествующие годы обычно выступают в качестве объясняющих переменных.
В качестве иллюстрации приведем пример из экономики. Рассмотрим модель спроса и предложения. Как известно, спрос D на некоторый продукт зависит от его цены р. От этого же параметра, но с противоположным по знаку коэффициентом, зависит и предложение этого продукта. Силы рыночного механизма формируют цену таким образом, что спрос и предложение уравниваются. Нам нужно построить модель описанной ситуации. Для этого имеются данные об уровне равновесных цен и спросе (который равен предложению). Представленную ситуацию можно формализовать в виде следующей линейной модели:
(3.1)спрос пропорционален цене с коэффициентом пропорциональности a1<0, т.е. связь отрицательная;
(3.2)предложение пропорционально цене с коэффициентом пропорциональности а2>0, т.е. связь положительная;
(3.3)Здесь еl, е'l\, (l=1,...,n) - ошибки модели, имеющие нулевое математическое ожидание.
Первые два из представленных уравнений, если их рассматривать отдельно, могут показаться вполне обычными. Мы можем определить коэффициенты регрессии для каждого из этих уравнений. Но в этом случае остается открытым вопрос о равенстве спроса и предложения, т.е. может не выполняться третье равенство, в котором спрос выступает в качестве зависимой переменной. Поэтому расчет параметров отдельных уравнений в такой ситуации теряет смысл.
Экономическая модель как система одновременных уравнений может быть представлена в структурной или в приведенной форме. В структурной форме ее уравнения имеют исходный вид, отражая непосредственные связи между переменными. Приведенная форма получается после решения модели относительно эндогенных (внутренних) переменных, то есть выражения этих переменных только через экзогенные (задаваемые извне) переменные и параметры модели. Например, в модели спроса и предложения эндогенными являются переменные pl, Sl, Dl, ее параметры – a1, a2, b1, b2, а экзогенных переменных в ней нет. Таким образом, в приведенной форме переменные pl, Sl, Dl, должны выражаться только через параметры модели. Подставив Sl и Dl из (1) и (2) в (3), получаем
Здесь v1l, v2l, v3l - преобразованные отклонения. Мы можем оценить
как среднее значение pl(т.е. ), а также , ,но из этих трех соотношений невозможно рассчитать параметры первоначальной модели a1, a2, b1 и b2(поскольку их четыре). Тем самым мы подошли к проблеме идентификации - оценке параметров структурной формы модели (в чем, собственно, и состоит наша задача) по параметрам приведенной формы. Параметры приведенной формы могут быть оценены обычным МНК, но по ним далеко не всегда может быть идентифицирована исходная модель (как, например, в описанном случае модели спроса и предложения). Для того чтобы структурная форма модели могла быть идентифицирована, вводят дополнительные предпосылки (например, о равенстве некоторых коэффициентов нулю или об их взаимосвязи между собой). Часто уже на этапе построения модели стараются выбрать такую ее форму, которая была бы идентифицируема. Такой, например, является треугольная форма модели: