Решение задачи сводится к решению системы линейных уравнений относительно
О качестве полученного уравнения регрессии можно судить, исследовав
Величина S называется стандартной ошибкой регрессии. Чем меньше величина S, тем лучше уравнение регрессии описывает независимую переменную Y.
Так как мы ищем оценки
1. Существует ли регрессионная зависимость? Может быть, все коэффициенты регрессии в генеральной совокупности равны нулю, оцененные их значения ненулевые только благодаря случайным отклонениям данных?
2. Существенно ли влияние на зависимую отдельных независимых переменных?
В пакете SPSSвычисляются статистики, позволяющие решить эти задачи.
Для проверки одновременного отличия всех коэффициентов регрессии от нуля проведем анализ квадратичного разброса значений зависимой переменной относительно среднего. Его можно разложить на две суммы следующим образом:
В этом разложении обычно обозначают
Статистика
При сравнении качества регрессии, оцененной по различным зависимым переменным, полезно исследовать доли объясненной и необъясненной дисперсии. Отношение SSreg/SSt представляет собой оценку доли необъясненной дисперсии. Доля дисперсии зависимой переменной
Корень из коэффициента детерминации называется КОЭФФИЦИЕНТОМ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ (он является коэффициентом корреляции между y и
В этой формуле используются несмещенные оценки дисперсий регрессионного остатка и зависимой переменной.
Если переменные X независимы между собой, то величина коэффициента bi интерпретируется как прирост y, если Xi увеличить на единицу.
Можно ли по абсолютной величине коэффициента судить о роли соответствующего ему фактора в формировании зависимой переменной? То есть, если b1>b2, будет ли X1 важнее X2?
Абсолютные значения коэффициентов не позволяют сделать такой вывод. Однако при небольшой взаимосвязи между переменными X, если стандартизовать переменные и рассчитать уравнение регрессии для стандартизованных переменных, то оценки коэффициентов регрессии позволят по их абсолютной величине судить о том, какой аргумент в большей степени влияет на функцию.
Дисперсия коэффициента позволяет получить статистику для проверки его значимости
Построим регрессию Y на факторы Z1-Z20 по методу линейной регрессии (табл.14.)
Таблица 14. Оценка линейной вероятностной модели
В нашем случае прогнозные значения Yf указывают на вероятность возврата (невозврата) кредита. Построим график прогнозных значений (рис.3.)
Рис.3. график прогнозных значений
Можно видеть, что прогнозные значения могут находиться вне интервала [0,1] – это главный недостаток LP модели. Поэтому приступим к построению моделей, лишенных этих недостатков.
Будем считать, что событие в данных фиксируется дихотомической переменной (0 не произошло событие, 1 - произошло). Для построения модели предсказания можно было бы построить, к примеру, линейное регрессионное уравнение с зависимой дихотомической переменной Y, но оно будет не адекватно поставленной задаче, так как в классическом уравнении регрессии предполагается, что Y - непрерывная переменная. С этой целью рассматривается логистическая регрессия. Ее целью является построение модели прогноза вероятности события {Y=1} в зависимости от независимых переменных X1,…,Xp. Иначе эта связь может быть выражена в виде зависимости P{Y=1|X}=f(X)
Логистическая регрессия выражает эту связь в виде формулы
Название "логистическая регрессия" происходит от названия логистического распределения, имеющего функцию распределения
Отношение вероятности того, что событие произойдет к вероятности того, что оно не произойдет P/(1-P) называется отношением шансов.
С этим отношением связано еще одно представление логистической регрессии, получаемое за счет непосредственного задания зависимой переменной в виде Z=Ln(P/(1-P)), где P=P{Y=1|X1,…,Xp}. Переменная Z называется логитом. По сути дела, логистическая регрессия определяется уравнением регрессии Z=B0+B1X1+…+BpXp.
В связи с этим отношение шансов может быть записано в следующем виде
P/(1-P)=
Отсюда получается, что, если модель верна, при независимых X1,…,Xp изменение Xk на единицу вызывает изменение отношения шансов в
Механизм решения такого уравнения можно представить следующим образом
1. Получаются агрегированные данные по переменным X, в которых для каждой группы, характеризуемой значениями Xj=
2. На агрегированных данных оцениваются коэффициенты уравнения Z=B0+B1X1+…+BpXp. К сожалению, дисперсия Z здесь зависит от значений X, поэтому при использовании логита применяется специальная техника оценки коэффициентов - взвешенной регрессии.