Теснота линейной взаимосвязи между переменной y и рядом переменных xj, рассматриваемых в целом, может быть определена с помощью коэффициента множественной корреляции.
Предположим, что переменная y испытывает влияние двух переменных - x и z. В этом случае коэффициент множественной корреляции может быть определен по формуле:
. | (6.9) |
где ryx, ryz, rxz - простые коэффициенты линейной парной корреляции, определенные из соотношения (6.4).
Коэффициент множественной корреляции заключен в пределах 0 ≤ R ≤ 1. Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом.
С помощью множественного коэффициента (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина R2, называемая множественным коэффициентом детерминации, показывает, какую долю вариации исследуемой переменной (y) объясняет вариация остальных учтенных переменных (x, z).
7. Коэффициент частной корреляции
Иногда представляет интерес измерение частных зависимостей (между y и xj) при условии, что воздействие других факторов, принимаемых во внимание, устранено. В качестве соответствующих измерителей приняты коэффициенты частной корреляции.
Рассмотрим порядок расчета коэффициента частной корреляции для случая, когда во взаимосвязи находятся три случайные переменные – x, y, z. Для них могут быть получены простые коэффициенты линейной парной корреляции – ryx, ryz, rxz. Однако большая величина этого коэффициента может быть обусловлена не только тем, что y и x действительно связаны между собой, но и в силу того, что обе переменные испытывают сильное действие третьего фактора – z.
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x) при условии, что влияние на них третьего фактора (z) устранено.
Соответствующая расчетная формула:
. | (6.10) |
Частный коэффициент корреляции, так же как и парный коэффициент корреляции r (рассчитанный по формуле (6.4)), может принимать значения от -1 до 1.
8. Оценка параметров нелинейной регрессии
Пусть предварительный анализ исходной информации дает основание предполагать, что регрессионная зависимость носит нелинейный характер. Пример корреляционного поля, соответствующего нелинейной зависимости, представлен на рисунке 6.5.
Рисунок 6.5 – Пример корреляционного поля (нелинейная зависимость)
Рассмотрим в качестве примера следующее уравнение регрессии:
= a0 + a1x1 + a2 + a3x2 + a4 . | (6.11) |
Пусть необходимо определить коэффициенты уравнения.
В этом случае, как правило, выполняют линеаризующие преобразования переменных.
Введем обозначения:
z1 = x1; z2 = ; z3 = x2; z4 = . |
Тогда исходное уравнение (6.11) примет вид:
= a0 + a1z1 + a2z2 + a3z3 + a4z4 . | (6.12) |
Уравнение (6.12) представляет собой уравнение линейной регрессии с четырьмя независимыми переменными. Коэффициенты последнего уравнения находятся по уже известной нам формуле (6.6):
A = (Zт∙Z)-1∙Zт∙Y. |
После нахождения коэффициентов необходимо выполнить обратные преобразования для возврата к исходным переменным.
Индекс корреляции используется для выявления тесноты связи между переменными в случае нелинейной зависимости.
Он показывает тесноту связи между фактором x и зависимой переменной y:
. | (6.13) |
где ei = yi -
i - величина ошибки, т.е. отклонение фактических значений зависимой переменной от рассчитанных по уравнению регрессии.Индекс корреляции есть неотрицательная величина, не превосходящая 1: 0 ≤ Iyx ≤ 1.
Связь тем сильнее, чем ближе Iyx к единице.
В случае линейной зависимости Iyx = | ryx |. Расхождение между Iyx (формула (6.13)) и ryx (формула (6.4)) может быть использовано для проверки линейности корреляционной зависимости.
10. Проблема мультиколлинеарности
При разработке структуры уравнения регрессии сталкиваются с явлением мультиколлинеарности. Под мультиколлинеарностью понимают взаимосвязь независимых переменных уравнения регрессии.
Пусть имеется уравнение регрессии:
= a0 + a1x1 + a2x2 . |
Переменные x1 и x2 могут находиться в некоторой линейной зависимости между собой. Эта зависимость может быть функциональной, тогда имеет место строгая мультиколлинеарность переменных. Чаще, однако, взаимосвязь между переменными не столь жестка и проявляется лишь приблизительно, в этом случае мультиколлинеарность называется нестрогой.
Одно из основных предположений метода наименьших квадратов заключается в том, что между независимыми переменными нет линейной связи. Нарушение этого условия будет приводить к тому, что получаемое уравнение регрессии будет ненадежным, и незначительное изменение исходных выборочных данных будет приводить к резкому изменению оценок параметров.
Для обнаружения мультиколлинеарности вычисляется матрица парных коэффициентов корреляции, охватывающая все сочетания независимых переменных. Коэффициенты, близкие по значению к ±1, свидетельствуют о наличии мультиколлинеарности между соответствующими переменными.
Устранение проблемы достигается путем пересмотра структуры уравнения регрессии.
Самый простой способ – исключение из модели одной из двух переменных, находящихся во взаимосвязи.
11. Проверка адекватности модели регрессии
Действия, выполняемые в данном случае, представляют собой процесс (этап) верификации модели регрессии, т.е. процесс, в ходе которого подвергается анализу качество полученной модели.
Допустим, имеется уравнение регрессии в линейном или нелинейном виде. Значения определяемые уравнением -
i , тогда фактические значения можно представить как: yi = i + ei , |
где ei - случайная (остаточная) компонента.
Анализ остаточной компоненты (остаточного ряда) позволяет оценить качество полученнного уравнения регрессии. Качество характеризуется выполнением определенных статистических свойств и точностью, т.е. степенью близости к фактическим данным. Модель считается хорошей со статистической точки зрения, если она адекватна и достаточно точна. Смысл используемых терминов характеризуют рисунки 6.6 и 6.7.
|
|
Оценить адекватность модели позволяет анализ случайной компоненты ei. Модель считается адекватной исследуемому процессу, если:
1) математическое ожидание значений остаточного ряда близко или равно нулю;
2) значения остаточного ряда случайны;
3) независимы;
4) подчинены нормальному закону распределения.
Таким образом, анализ адекватности модели разбивается на несколько этапов.
1. Равенство нулю математического ожидания ряда остатков означает выполнение следующего соотношения:
Однако в случае применения метода наименьших квадратов такая проверка является излишней, поскольку использование МНК предполагает выполнение равенства
, откуда безусловным образом следует равенство нулю математического ожидания значений остаточного ряда.