Протокол корреляционного анализа
Главная цель анализа данных состоит в выявлении корреляционной связи зависимой переменной Y с независимыми переменными Хi, а также выявление независимых переменных, имеющих высокий уровень корреляции между собой.
Критическое значение коэффициента корреляции rкр = 0,2002. Это означает, что все коэффициенты корреляции, значения которых меньше rкр принимаются равными нулю, а связь между этими параметрами считается незначимой.
Влияние независимой переменной Х3, Х4, включенной в исследование, имеет высокий уровень (r > 0,7), причем это влияние положительно (rух3 = 0,872, rух4 = 0,917).
Х5 оказывает умеренное положительное влияние на величину Y (rух5 = 0,303).
Х1, Х2, Х6, Х7, Х8 не оказывают влияния на величину Y (rух2 = 0,010, rух6 = = -0,104, rух7 = 0,119, rух8 = -0,005).
3) Построим уравнение регрессии, характеризующее зависимость цены от всех факторов, в линейной форме.
Линейная регрессия
Уравнение будет иметь вид:
у(х) = -0,505 – 0,966х1 + 0,824х2 + 0,390х3 + 0,191х4 + 0,091х5 + 5,835х6 + 1,244х7 – 0,011х8
Линейная или близкая к ней связь между факторами называется мультиколлинеарностью. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0,7.
Рассмотрим матрицу парных коэффициентов корреляции между факторами Хj, включенными в дальнейшем анализ.
Матрица парных корреляций
Явление сильной коллинеарности наблюдается между факторами:
Х1 и Х3, т.к. rх1х3 = 0,872 > 0,7
Х1 и Х4, т.к. rх1х4 = 0,917 > 0,7
Х3 и Х4, т.к. rх3х4 = 0,966 > 0,7
4) Построим модель у = f (х3, х6, х7, х8, z) в линейной форме.
Результаты регрессионного анализа
Модель в линейной форме будет иметь вид:
у(х) = -5,64 + 0,715х2 + 0,475х3 + 6,786х6 + 1,284х7 – 0,037х8
Х6 (тип дома), значимо воздействует на формирование цены квартиры в модели.
5) Оценим статистическую значимость параметров регрессионной модели с помощью t-критерия; нулевую гипотезу о значимости уравнения регрессии проверим с помощью F-критерия; оценим качество уравнения регрессии с помощью коэффициента детерминации R2.
Характеристика остатков линейной регрессии
Характеристика | Значение |
Среднее значение | 0,000 |
Дисперсия | 10,579 |
Приведенная дисперсия | 12,220 |
Средний модуль остатков | 2,237 |
Относительная ошибка | 7,144 |
Критерий Дарбина-Уотсона | 1,154 |
Коэффициент детерминации | 0,991 |
F - значение ( n1 = 8, n2 = 58) | 764,697 |
Критерий адекватности | 36,993 |
Критерий точности | 47,492 |
Критерий качества | 44,867 |
Уравнение значимо с вероятностью 0.95 |
Коэффициент детерминации показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 99,1% вариации зависимой переменной учтено в модели и обусловлено влиянием включенных факторов.
Табличное значение F-критерия (Fкрит) при доверительной вероятности 0,95 при n1 = 8 и n2 = 58 составляет 2,10. Проверка гипотезы о значимости уравнения регрессии проводится на основании:
если Fфакт > Fкрит, то модель статистически значима;
если Fфакт < Fкрит, то модель статистически незначима.
Fфакт > Fкрит, значит модель статистически значима, т.е. пригодна к использованию.
Оценим с помощью t-критерия Стьюдента статистическую значимость коэффициентов уравнения регрессии.
Табличное значение t-критерия при 5% уровне значимости и степени свободы k = 69-8-1 = 60 составляет 2,0003.
Если tрасч > tтабл, то коэффициент статистически значим.
Характеристика модели
Коэффициенты | Стандартная ошибка | t-статистика | |
Y-пересечение | -6,10491 | 1,867676003 | -3,268720937 |
Переменная Х 1 | -0,16426 | 1,096321271 | -0,149825399 |
Переменная Х 2 | 0,744173 | 0,335026167 | 2,221237839 |
Переменная Х 3 | 0,36827 | 0,092869614 | 3,965447278 |
Переменная Х 4 | 0,147869 | 0,132602783 | 1,115126788 |
Переменная Х 5 | 0,177213 | 0,195399452 | 0,906925347 |
Переменная Х 6 | 6,93635 | 0,869661345 | 7,975921084 |
Переменная Х 7 | 1,777648 | 1,124095736 | 1,581402513 |
Переменная Х 8 | -0,04802 | 0,072432334 | -0,662966567 |
tb0 = 3,2687 > 2,0003 => коэффициент регрессии b0 статистически значим;