На підставі цих спостережень будується лінійна вибіркова багатофакторна модель, а саме:
, (2.1.9)де y – залежна змінна;
- незалежні змінні (фактори); - невідомі параметри; - випадкова величина.Сутність методів найменших квадратів полягає у потребі мінімізувати суму квадратів відхилень фактичних даних від теоретичних:
, (2.1.10)Для того, щоб знайти мінімум цього виразу, необхідно прирівняти до нуля часткові похідні функції F за аргументами
. Отримаємо систему нормальних рівнянь.Розглянемо властивості методу найменших квадратів:
1. Багатофакторна регресійна модель правильна для середніх точок
. Тобто для моделі (2.1.11)маємо:
.2. Середнє значення оцінки дорівнює середньому значенню фактичних даних, тобто
. Це виходить з простого перетворення: (2.1.12) ,Просумуємо обидві частини рівняння за
, а також виходячи з того, що ; для , отримаємо .Для спрощення пояснення наступних властивостей введемо умовні позначення. Позначимо
, тоді рівність (2.1.12) можна записати так: , (2.1.13)де
.Тому багатофакторну вибіркову модель можна записати у формі:
, (2.1.14)3. Сума помилок дорівнює нулю. Це випливає з рівняння (2.1.14).
.4. Помилки
некорельовані з , тобто .5. Помилки
некорельовані з , тобто .6. Якщо правильні припущення класичної лінійної регресійної моделі, то оцінки методу найменших квадратів є не тільки лінійними, без відхилень, а й мають найменшу дисперсію.
Корисною мірою ступеня відповідності даних, отриманих з регресійної моделі, фактичним даним є коефіцієнт множинної кореляції, який визначається як коефіцієнт кореляції між у та
і має вигляд [10, 15, 20, 21, 35]: , (2.1.15)Після того, як параметри знайдено за методом найменших квадратів, проводиться перевірка моделей на адекватність за допомогою F-критерію Фішера, а також перевірка значущості знайдених параметрів за t-критерієм Ст‘юдента. Якщо модель неадекватна, то необхідно повернутися до етапу побудови моделі і, можливо, від лінійної моделі перейти до нелінійної, або ввести додаткові фактори.
Якщо модель адекватна, то можна робити прогнози, вивчати вплив окремих факторів на залежний показник, будувати інтервали довіри, аналізувати та інтерпретувати отримані результати. Для того, щоб розглянути, як можна проінтерпретувати треба звернутися до загальної моделі багатофакторного регресійного аналізу та знайдемо математичне очікування обох частин. Отримаємо:
, (2.1.16)Це рівняння дає умовне математичне сподівання у при фіксованих значеннях х. Параметри
також називають частковими коефіцієнтами регресії. Кожен з них вимірює вплив відповідної змінної за умови, що всі інші залишаються без змін, тобто є константами.Перевірка адекватності моделей, побудованих на основі рівнянь регресії, починається з перевірки значимості кожного коефіцієнта регресії. Значимість коефіцієнта регресії здійснюється за допомогою t-критерію Стьюдента:
, (2.1.17)де
- дисперсія коефіцієнта регресії.Параметр моделі визнається статистично значимим, якщо
, де - рівень значимості, v = n – k – 1 – число ступенів волі.Величина
може бути визначена по виразу: , (2.1.18)де
- дисперсія результативної ознаки;k – число факторних ознак у рівнянні.
Також більш точну оцінку величини дисперсії можна одержати по формулі:
, (2.1.19)де
- величина множинного коефіцієнта кореляції по фактору з іншими факторами.Перевірка адекватності всієї моделі здійснюється за допомогою розрахунку F-критерію і величини середньої помилки апроксимації (
), визначеної по формулі: , (2.1.20)Це значення не повинне перевищувати 12 - 15% [19].
Існує ще один спосіб перевірки відповідності виведеного рівняння дослідним даним або перевірки відповідності виведеного рівняння регресії описуваному реальному процесові. Основним критерієм тут повинні служити міркування, що випливають з суті досліджуваного питання, з його економічного змісту. Це особливо важливо враховувати, якщо йдеться про використання виведеного рівняння для екстраполяції, що неминуче містить невизначеність, яку не можна оцінити чисто статистичним методом.
Варто оцінити ступінь близькості результатів розрахунків по кожному з отриманих рівнянь до дослідних даних. Ступінь близькості оцінюють по залишковій теоретичній дисперсії функціональної ознаки
, (2.1.21)де l – число параметрів рівняння, визначених по м.н.к;
k – число інтервалів [15];
Інтерпретація моделей регресій здійснюється методами тієї галузі знань, до якої відносяться досліджувані явища. Але всяка інтерпретація починається зі статистичної оцінки рівняння регресії в цілому й оцінки залежності вхідних у модель факторних ознак, тобто з з'ясування, як вони впливають на величину результативної ознаки. Чим більше величина коефіцієнта регресії, тим значніше вплив даної ознаки на модельований. Особливе значення при цьому має знак перед коефіцієнтом регресії. Знаки коефіцієнтів регресії говорять про характер впливу на результативну ознаку. Якщо факторна ознака має знак плюс, то зі збільшенням даного фактора результативна ознака зростає. Якщо факторна ознака має знак мінус, то з його збільшенням результативна ознака зменшується [19, 21].
Очевидно, що при застосуванні багатофакторних регресійних рівнянь і виробничих функцій постає проблема екстраполяції вхідних у них факторів, хоча сама по собі задача екстраполяції часових рядів має в прогнозуванні самостійне значення. Як і в інших екстраполяційних методах використання виробничих функцій у прогнозуванні припускає стійкість тенденцій зміни виробничих залежностей [21].
Використання лінійних трендів відкриває широкі можливості аналітику для вивчення характеру динаміки часового ряду, для прогнозування показників, для вибору оптимальних рішень. Тренд не тільки сглажує часовий ряд, він дозволяє оцінити загальну тенденцію розвитку показника, його збільшення або зменшення. Зіставляючи між собою різні тренди різних рядів показників можна робити висновки про те, який з показників зростає, чи спадає швидше, на підставі аналізу кута нахилу тренду до осі абсцис.