РЕФЕРАТ
Регрессионный анализ. Парная регрессия.
I. Построение регрессионных моделей
1. Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.
Сегодня мы разберем наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.
2. Построение модели
Этап 1. Исходные данные: заранее известные (экспериментальные, наблюденные) значения фактора хi – экзогенная переменная и соответствующие им значения отклика yi, (i = 1,…,n) - эндогенная переменная;
Активный и пассивный эксперимент.
Выборочные характеристики – позволяют кратко охарактеризовать выборку, т. е., получить ее модель, хотя и очень грубую:
а) среднее арифметическое:
Среднее арифметическое – это «центр», вокруг которого колеблются значения случайной величины.
Пример: средняя продолжительность жизни в России и США
б) дисперсия:
Отклонение от среднего:
Можно попытаться усреднить все отклонения, но «среднее арифметическое отклонений от среднего арифметического» имеет особенность:
Эта величина обнуляется из-за того, что отрицательные значения отклонений и положительные взаимно погашаются.
Чтобы избежать этого, возведем их в квадрат, получив так называемую выборочную дисперсию:
Выборочная дисперсия характеризует разброс (вариацию) элементов выборки вокруг их среднего арифметического. Важно иметь в виду, что сами элементы выборки и их дисперсия имеют разные порядок: если элементы выборки измеряются в метрах, то дисперсия – в квадратных метрах.
Стандартное отклонение:
Полезное свойство дисперсии:
Т. о.
Характеристики генеральной совокупности:
математическое ожидание М(Х)
дисперсия D(X)
Несмещенная оценка дисперсии:
Для простоты, мы будем использовать смещенную оценку – выборочную дисперсию – при достаточно больших n они практически равны.
Этап 2. Постановка задачи: предположим, что значение каждого отклика yi как бы состоит из двух частей:
- во-первых, закономерный результат того, что фактор х принял конкретное значение хi;
- во-вторых, некоторая случайная компонента ei, которая никак не зависит от значения хi.
Таким образом, для любого i = 1,…,n
yi = f(xi) + ei
Смысл случайной величины (ошибки) e:
а) внутренне присущая отклику у изменчивость;
б) влияние прочих, не учитываемых в модели факторов;
в) ошибка в измерениях
Этап 3. Предположения о характере регрессионной функции
Возможный вид функции f(xi)
- линейная:
- полиномиальная
- степенная:
- экспоненциальная:
- логистическая:
Методы подбора вида функции:
- графический
- аналитический
Этап 4. Оценка параметров линейной регрессионной модели
1. Имея два набора значений: x1, x2, …, xn и y1, y2, …, yn, предполагаем, что между ними существует взаимосвязь вида:
yi = a + bxi + ei
т. н. функция регрессии
Истинные значения параметров функции регрессии мы не знаем, и узнать не можем.
Задача: построить линейную функцию:
ŷi = a + bxi
так, чтобы вычисленные значения ŷi(xi) были максимально близки к экспериментальным уi (иначе говоря, чтобы остатки (ŷi - yi) были минимальны).
Экономическая интерпретация коэффициентов:
a – «постоянная составляющая» отклика, независимая от фактора
b – степень влияния фактора на отклик (случаи отрицательного)
2. Метод наименьших квадратов (МНК):
подставим в задачу формулу (2.2):
В данном случае у нас a и b – переменные, а х и у – параметры. Для нахождения экстремума функции, возьмем частные производные по a и b и приравняем их к нулю.
Получили систему из двух линейных уравнений. Разделим оба на 2n:
Из первого уравнения выразим неизвестную а:
и подставим это выражение во второе уравнение:
Построив оценки a и b коэффициентов a и b, мы можем рассчитать т. н. «предсказанные», или «смоделированные» значения ŷi = a + bxi и их вероятностные характеристики – среднее арифметическое и дисперсию.
Несложно заметить, что оказалось
Кроме того, вычислим т. н. случайные остатки
Оказалось,
Таким образом, дисперсия случайных остатков будет равна:
Мы произвели вычисления, и построили регрессионное уравнение, позволяющее нам построить некую оценку переменной у (эту оценку мы обозначили ŷ). Однако, если бы мы взяли другие данные, по другим областям (или за другой период времени), то исходные, экспериментальные значения х и у у нас были бы другими и, соответственно, а и b, скорее всего, получились бы иными.
Вопрос: насколько хороши оценки, полученные МНК, иначе говоря, насколько они близки к «истинным» значениям a и b?
Этап 5. Исследование регрессионной модели
1. Теснота связи между фактором и откликом
Мерой тесноты связи служит линейный коэффициент корреляции:
-1 £ rxy£ 1 (2.14)
Отрицательное значение КК означает, что увеличение фактора приводит к уменьшению отклика и наоборот:
2. Доля вариации отклика у, объясненная полученным уравнением регрессии характеризуется коэффициентом детерминации R2. Путем математических преобразований можно выразить:
где – оценка дисперсии случайных остатков в модели,
Таким образом, R2 – это доля дисперсии у, объясненной с помощью регрессионного уравнения в дисперсии фактически наблюденного у.
Очевидно:
0 £ R2 £ 1
3. Проверка статистической значимости уравнения регрессии
Мы получили МНК-оценки коэффициентов уравнения регрессии и рассчитали коэффициент детерминации. Однако, осталось неясным, достаточно ли он велик, чтобы говорить о существовании значимой связи между величинами х и у. Иначе говоря, достаточно ли сильна эта связь, чтобы на основании построенной нами модели можно было бы делать выводы?
Для ответа на этот вопрос можно провести т. н. F-тест.