Функціонал помилок як функція α і β має вид:
У тривимірному просторі з координатами підстави α і βця функція являє собою поверхню з параболічними перетинами, мал. 3. Абсолютний мінімум параболічної функції при варіації лепеха має місце в точці нульових часток похідних. Для точки абсолютного мінімуму функції
одержимо систему двох лінійних відносно α і β рівнянь:Рішення цієї системи лінійних відносно α і β рівнянь дає оцінки МНК а і b значень параметрів моделі. На мал. 3 вони показані як проекції крапки мінімуму функцій F(a, b) на координатні осі а і bпідстави. Ці оцінки можуть тим більше відрізнятися від точних значень а і b в специфікації моделі, чим менше обсяг вибірки п у порівнянні обсягом генеральної сукупності N. Абсолютна точність оцінок досягається в граничному випадку (п→N, при цьому а→α і b→β). Відзначимо, що за умовами аналізу специфікації моделі а і b- фіксовані параметри, але у функції ми їх розглядаємо варїруємими перемінними для перебування оптимальних вибіркових оцінок а і b.
Рис. 3
З попереднього рівняння , зокрема , випливає, що сумарна помилка апроксимації (сума залишків регресії)
Крім того, це рівняння дає співвідношення між вибірковими середніми арифметичними значеннями фактора X і показника у
Звідси ясно, що теоретична залежність ТЗ моделі лінійної регресії у = а+ bх, побудована згідно МНК, проходить через точку середніх значень (х,у).
Рішення системи рівнянь щодо α і βмає вид:
Для різних вибірок параметри а і b можуть приймати різні значення, що концентруються поблизу точних значень α і β. Тому при статистичному аналізі оцінки параметрів a і b розглядаються як випадкові величини При цьому обмовляється, за яким критерієм оптимізації отримана дана оцінка. Ми, як відзначалося, користаємося оцінками МНК із найменшим значенням функціонала помилок.
Наочне представлення вирішеної задачі побудови моделі парної лінійної регресії дає графік моделі на тілі діаграми розсіювання.
3. Оцінка параметрів лінійної регресії за методом найменших квадратів
Як відзначалося, по обмеженим даним вибірки обсягу п можна побудувати модель лише з деякою точністю. Її параметри а і b є оцінками щирих значень α і β які визначаються генеральною сукупністю обсягу N >> п. Останньої приписуються імовірностні властивості з застосуванням аксіом теорії імовірності, визначень випадкової величини, імовірності, щільності імовірності, оператора усереднення і т.д. У рамках властивостей генеральної сукупності обсягу N розглядається специфікація моделі лінійної регресії
у якій α, β, хі - детерміновані (фіксовані чи відомі) величини, а значення показника yі і помилки моделі εі - випадкові величини (ВВ) із заданим розподілом (наприклад, щільності імовірності). Часто уі, εі вважаються нормальними ВВ (НВВ), тоді модель називають нормальною. Обмежені дані вибірки обсягу п << N дозволяють замість точної моделі з параметрами α і βпобудувати наближену модель:
Тут еі - залишки регресії, вероятностные властивості яких вважаються аналогічними помилкам
, а а, b - деякі оцінки (наближені значення) параметрів моделі.Ми будемо оцінювати дисперсії і середньоквадратичні помилки (СКП) для оцінок параметрів моделі і величини ε:
де М[X], D[X] - математичне чекання і дисперсія випадкової величини X.
Для безупинної випадкової величини X із щільністю імовірності р(х) вони визначаються як:
Отже, для точного визначення того чи іншого параметра випадкової величини досить знати (чи задати) її розподіл щільності імовірності.
4. Властивості простої лінійної регресії
Якщо дано сукупність показників y, що залежать від факторів х, то постає завдання знайти таку економетричну модель, яка б найкраще описувала існуючу залежність. Одним з методів є лінійна регресія. Лінійна регресія передбачає побудову такої прямої лінії, при якій значення показників, що лежать на ній будуть максимально наближені до фактичних, і продовжуючи цю пряму одержуємо значення прогнозу. Процес продовження прямої називається екстраполяцією. Відповідно до цього постає задача визначити цю пряму, тобто рівняння цієї прямої. В загальному вигляді рівняння прямої виглядає:
=а+bх,де
- вирівняне значення у для відповідного значення х.Константи а і b - константи, які передбачають зменшення суми квадратів відхилень між фактичним значенням у і вирівняним значенням
.S(у -
)2® minКоефіцієнт а характеризує точку перетину прямої регресії з лінією координат.
Коефіцієнт b характеризує кут нахилу цієї прямої до осі абсцис, а також на яку величину зміниться
при зміні х на одиницю.Коефіцієнти а і b знаходять із системи рівнянь, що випливає з формули.
Знайшовши значення параметрів розраховують ряд вирівняних значень для відповідних факторів і проводять дослідження знайденої економетричної моделі.
5. Коефіцієнти кореляції та детермінації
Кореляційний аналіз має на меті встановлення істотності (статистичної значимості) кореляційного зв'язку між фактором і результатом (показником). Основним і досить зручним параметром для цього є коефіцієнт детермінації R2.
Розкладемо вибіркову дисперсію показника Sу2 на дві некорельовані складові:
Остання сума в цьому розкладанні дорівнює 0 і, отже, випадкові величини еі, і
некорельовані. ТомуТаким чином, загальна дисперсія показника TSS (total sum of squares - загальна сума квадратів) складається з двох складових, що характеризують різні властивості кореляційного полючи даних. Складова ESS (error sum of squares - сума квадратів помилок) характеризує ступінь розкиду точок у, щодо теоретичної прямої і, отже, виражає властивість випадковості вибіркової сукупності. Складова RSS (regressіon sum of squares - сума квадратів регресії), навпроти, пропорційна квадрату різниці між лінією регресії і постійної середній, тобто характеризує властивість закономірності зв'язку. Її частка в загальній дисперсії, обумовлена як коефіцієнт детермінації
є параметром, що визначає значимість лінійного статистичного зв'язку між фактором і показником. З цього випливає, що
Ця формула зручна при розрахунках, якщо за результатами моделювання обчислені залишки регресії еі, і їхні квадрати.
Коефіцієнт детермінації можна також виразити через коефіцієнт регресії b, якщо врахувати, що зведення в квадрат і усереднення дає
Тоді
або
Таким чином, коефіцієнт детермінації дорівнює квадрату коефіцієнта кореляції
Коефіцієнт кореляції можна виразити через коефіцієнт регресії як:
Таким чином, знак коефіцієнта кореляції збігається зі знаком коефіцієнта регресії b. Останній, однак, відрізняється тим, що може мати розмірність [у/х], тоді як коефіцієнт кореляції R- величина безрозмірна.
Коефіцієнт кореляції характеризує ступінь лінійного статистичного зв'язку. Він приймає значення в інтервалі
- 1 < R < 1.
У крайніх точках R = ± 1 статистичний зв'язок стає лінійним функціональним, позитивним (R = 1) чи негативним (R = - 1). В області R є (0, 1] регресія позитивна (b > 0), а в області rху є [- 1, 0) - негативна (b < 0). При R = 0 говорять, що величини Х і Y некорельовані. У теорії імовірності доводиться, що незалежні випадкові величини завжди некорельовані (зворотне твердження вірне лише в окремих випадках, наприклад, для нормальних випадкових величин X і Y). Звичайно думають, що при | R | < 0,3 кореляційний зв'язок слабкий, при | R | - (0,3..0,7) - середній, а при | R | > 0,7 - сильний.