Теперь
Схема дисперсионного анализа имеет вид, представленный в табл. 2.1
Таблица 2.1
Средние квадраты
и (табл. 2.1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленной соответственно регрессией или объясняющей(ими) переменной(ыми) X и воздействием неучтенных случайных факторов и ошибок; m— число оцениваемых параметров уравнения регрессии; n — число наблюдений.Замечание. При расчете общей суммы квадратов полезно иметь в виду, что
( )(формула (2.17') следует из разложения
При отсутствии линейной зависимости между зависимой и объясняющей(ими) переменной(ыми) случайные величины
и имеют -распределение соответственно с m-1 и n-m степенями свободы, а их отношениеF-распределение с теми же степенями свободы . Поэтому уравнение регрессии значимо на уровне
, если фактически наблюдаемое значение статистики (2.18)где
— табличное значение F-критерия Фишера—Снедекора, определенное на уровне значимости при =m-1 и n-m степенях свободы.Учитывая смысл величин
и , можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней. В случае линейной парной регрессии m=2 и уравнение регрессии значимо на уровне , еслиВ 1 главе данной работы введен индекс корреляции R (для парной линейной модели — коэффициент корреляции r), выраженный через дисперсии .Тот же коэффициент в терминах «сумм квадратов» примет вид:
(2.19)Следует отметить, что значимость уравнения парной линейной регрессии может быть проверена и другим способом, если оценить значимость коэффициента регрессии
,что означает проверку нулевой гипотезы о равенстве параметра парной модели нулю.Можно показать, что при выполнении предпосылки 5 регрессионного анализа
статистика t =
имеет стандартный нормальный закон распределения N(0;l), а если в выражении (2.11) для заменить параметр его оценкой , то статистикаt =
(2.19)имеет t-распределение с k= n— 2 степенями свободы. По этому коэффициент регрессии
значим на уровне , если , a доверительный интервал для имеет вид:Для парной регрессионной модели оценка значимости уравнения регрессии по F-критерию равносильна оценке значимости коэффициента регрессии
либо коэффициента корреляции r по t-критерию , ибо эти критерии связаны соотношением F= . А интервальные оценки для параметра — при нормальном законе распределения зависимой переменной и = совпадают.При построении доверительного интервала для дисперсии возмущении
исходят из того, что статистика имеет -распределение с k = n — 2 степенями свободы. Поэтому интервальная оценка для на уровне значимости имеет вид (2.20)Соотношения между социально-экономическими явлениями и процессами далеко не всегда можно выразить линейными функциями, так как при этом могут возникать неоправданно большие ошибки. В таких случаях используют нелинейную (по объясняющей переменной) регрессию. Выбор вида уравнения регрессии (8.3) (этот важный этап анализа называется спецификацией или этапом параметризации модели) производится на основании опыта предыдущих исследований, литературных источников, других соображений профессионально-теоретического характера, а также визуального наблюдения расположения точек корреляционного поля. Наиболее часто встречаются следующие виды уравнений нелинейной регрессии: полиномиальное
, гиперболическое , степенное .Например, если исследуемый экономический показатель у при росте объема производства х состоит из двух частей — постоянной (не зависящей от х) и переменной (уменьшающейся с ростом х), то зависимость у от х можно представить в виде гиперболы
. Если же показатель у отражает экономический процесс, который под влиянием фактора х происходит с постоянным ускорением или замедлением, то применяются полиномы. В ряде случаев для описания экономических процессов используются более сложные функции. Например, если процесс вначале ускоренно развивается, а затем, после достижения некоторого уровня, затухает и приближается к некоторому пределу, то могут оказаться полезными логистические функции типа у = .При исследовании степенного уравнения регрессии следует иметь в виду, что оно нелинейно относительно параметров
,однако путем логарифмирования может быть преобразовано в линейное:ln = ln ln +…+ lnДля определения неизвестных параметров ,
,как и ранее, используется метод наименьших квадратов.В некоторых случаях нелинейность связей является следствием качественной неоднородности совокупности, к которой применяют регрессионный анализ. Например, объединение в одной совокупности предприятий различной специализации или предприятий, существенно различающихся по природным условиям, и т.д. В этих случаях нелинейность может являться следствием механического объединения разнородных единиц. Регрессионный анализ таких совокупностей не может быть эффективным. Поэтому любая нелинейность связей должна критически анализироваться. По расположению точек корреляционного поля далеко не всегда можно принять окончательное решение о виде уравнения регрессии. Если теоретические соображения или опыт предыдущих исследований не могут подсказать точного решения, то необходимо сделать расчеты по двум или нескольким уравнениям. Предпочтение отдается уравнению, для которого меньше величина остаточной дисперсии. Однако при незначительных расхождениях в остаточных дисперсиях следует всегда останавливаться на более простом уравнении, интерпретация показателей которого не представляется сложной. Весьма заманчивым представляется увеличение порядка выравнивающей параболической кривой, ибо известно, что всякую функцию на любом интервале можно как угодно точно приблизить полиномом .Так, можно подобрать такой показатель k, что соответствующий полином пройдет через все вершины эмпирической линии регрессии. Однако повышение порядка гипотетической параболической кривой может привести к неоправданному усложнению вида искомой функции регрессии, когда случайные отклонения осредненных точек неправильно истолковываются как определенные закономерности в поведении кривой регрессии. Кроме того, за счет увеличения числа параметров снижается точность кривой регрессии (особенно в случае малой по объему выборки) и увеличивается объем вычислительных работ. В связи с этим в практике регрессионного анализа для выравнивания крайне редко используются полиномы выше третьей степени.