Министерство образования и науки Украины
Севастопольский национальный технический университет
Факультет Экономики и менеджмента
Кафедра менеджмента и экономико - математических методов
Отчёт по лабораторной работе №4
По дисциплине: «Прикладная статистика»
На тему: «Однофакторный регрессионный анализ при помощи системы GRETL»
Вариант 1
Целью данной работы является научиться применять теоретические знания по теме «Одномерный регрессионный анализ» при решении экономических задач с помощью системы GRETL.
Задание 1
Компания «Лагуна», которая обеспечивает стеклянными бутылками множество изготовителей безалкогольных напитков, обладает следующей информацией, относящейся к числу ящиков при одной отгрузке и соответствующим транспортным затратам (см. Таблицу 1).
Таблица 1 ‑ Данные к заданию 1
Число ящиков на отгрузку | Транспортные затраты в гривнах | |
Вар 3 | ||
150 | 6532 | |
220 | 9771 | |
350 | 15227 | |
430 | 17575 | |
580 | 23998 | |
650 | 27800 | |
730 | 29466 | |
820 | 35447 | |
850 | 34420 | |
980 | 42188 |
Проведите анализ затрат в зависимости от числа ящиков к разгрузке. Представьте экономическое обоснование результатов регрессионного анализа. Спрогнозируйте сумму затрат при росте отгрузки до 1000 ящиков.
Решение:
Допустим, что транспортные затраты зависят от числа ящиков на отгрузку. Для проверки этого построим график зависимости и рассчитаем коэффициент корреляции, составив корелляционную матрицу.
Далее построим регрессионные модели вида:
и , где – число ящиков (шт.), – транспортные затраты (грн).Наши данные в системе gretl:
1. Построим сначала регрессионную модель вида
В зависимую переменную выбираем cost_var3, в независимую оставляем const и добавляем num_y.
Уравнение регрессии в данном случае: y = 192,181+41,7539x1
Так как р-значение (вероятность ошибки) меньше 0,05, то принимается альтернативная гипотеза, и коэффициент регрессии значим, то есть число ящиков существенно отражается на транспортные затраты.
Сумма квадратов ошибок и стандартная ошибка регрессии отражают степень разброса фактических значений от расчетных, полученных по модели, то есть чем меньше сумма квадратов ошибок и стандартная ошибка регрессии, тем точнее модель.
В нашем случае, модель не совершенно точно отражает.
Так как вычисленное значение p<α, то принимаем альтернативную гипотезу о значимости влияния числа ящиков на транспортные затраты.
Построим график фактических данных и расчетных в окне model через путь: графики – fitted,actual plot – в зависимости от num_y.
График показывает, что транспортные затраты возрастают с увеличением числа ящиков к разгрузке.
2. Построим регрессионную модель вида
аналогичным путем:Стандартная ошибка регрессии достаточно высока в сравнении со средним значением зависимой переменной.
Коэффициент детерминации 99% выше, чем у 1 модели, что свидетельствует о высокой степени соответствия построений модели исходными данными.
На основе регрессионного анализа 2 модели вида y = 42,0288x при уровне значимости в 5% принимаем альтернативную гипотезу о существенном влиянии числа ящиков на транспортные затраты.
Для выбора модели составим таблицу статистических оценок уравнения регрессии и сравним критерии качества регрессионного уравнения и в первом и во втором случае:
Таблица 2 –
Статистические оценки регрессионных моделей
Значимость коэффициентов по критерию Стъюдента | значим | значимы |
Адекватность регрессионного уравнения по критерию Фишера | адекватно | адекватно |
Стандартная ошибка регрессии | 840,721 | 887,157 |
Коэффициент детерминации | 0,99911 | 0,99429 |
Log-likelihood | -81,0052 | -80,9539 |
AIC | 164,01 | 165,908 |
BIC | 164,313 | 166,513 |
HQC | 163,678 | 165,244 |
Анализируя характеристики двух моделей, можно прийти к выводу о том, что в первой модели коэффициент детерминации выше, более того, в этой модели меньше ошибка и лучше показатели качества регрессионного уравнения. Следовательно, более точной является первая модель. Таким образом, модель зависимости транспортных затрат от числа ящиков будет иметь вид: y = 42,0288x
Уравнение регрессии показывает, что если число ящиков увеличивать, то соответственно транспортные затраты возрастут.
Задание 2
Компания «Фаворит» продает компьютерные программы. Ее отдел маркетинга получил данные (количество программ, цены программ, средний доход потребителей, приобретающих такой товар) из филиалов компании, расположенных по территории области). Проведите анализ спроса на продукцию фирмы. Подберите наилучшую модель, описывающую зависимость спроса от цены или дохода (линейную, квадратичную, кубическую). Представьте экономическое обоснование результатов регрессионного анализа.
Таблица 2 – Данные для анализа к заданию 2
Количество | Доход, грн |
Вариант 5 | |
311 | 388 |
250 | 391 |
209 | 394 |
323 | 388 |
253 | 398 |
520 | 479 |
109 | 353 |
381 | 438 |
329 | 415 |
253 | 392 |
420 | 437 |
321 | 394 |
250 | 382 |
174 | 385 |
156 | 367 |
305 | 380 |
450 | 465 |
411 | 419 |
364 | 416 |
339 | 390 |
269 | 377 |
114 | 341 |
318 | 403 |
256 | 380 |
291 | 386 |
377 | 402 |
388 | 419 |
484 | 457 |
364 | 434 |
380 | 435 |
Решение:
Сначала проведем оценку регрессионного уравнения вида
График показывает, что спрос на компьютеры возрастает с увеличением дохода потребителей. Коэффициент корреляции между данными составляет 0,91, что говорит о сильной положительной связи между переменными.
Далее построим регрессионные модели вида:
и , где – средний доход потребителей (грн), – продажа компьютеров (шт.)Оценка регрессионного уравнения вида
Регрессионное уравнение будет иметь вид: y = 0.79x, где х - средний доход потребителей, у – спрос на компьютеры.
При уровне значимости 5%принимается альтернативная гипотеза о значимости коэффициентов регрессионного уравнения (р<α)
Стандартная ошибка регрессии – 78,95, что является достаточно высоким результатом по сравнению со средним значением зависимой переменной – 312,3.
Коэффициент детерминации 94% свидетельствует о том, что степень соответствия построенной модели исходным данным высока.
На основе результатов дисперсионного анализа можно принять альтернативную гипотезу, т.е. можно утверждать, что уравнение регрессии адекватно отражает зависимость между переменными.
Теперь проведем оценку регрессионного уравнения вида:
Регрессионное уравнение имеет вид: у = -846,609+2,87х.
Средняя ошибка регрессии ниже, чем в предыдущем случае и составляет 43,46.
При уровне значимости 5% принимается альтернативная гипотеза о значимости коэффициентов регрессионного уравнения (р<0.05).
Коэффициент детерминации 82% говорит о более низкой степени соответствии построенной модели исходным данным в отличие от предыдущей.
На основе дисперсионного анализа при уровне значимости в 5% можно принять альтернативную гипотезу, то есть можно утверждать, что уравнение регрессии адекватно отражает зависимость между переменными.
Для выбора модели составим таблицу статистических оценок уравнения регрессии и сравним критерии качества регрессионного уравнения в первом и во втором случае.
Значимость коэффициентов по критерию Стъюдента | значим | значимы |
Адекватность регрессионного уравнения по критерию Фишера | адекватно | адекватно |
Стандартная ошибка регрессии | 78,95 | 43,46 |
Коэффициент детерминации | 94% | 82% |
Log-likelihood | -173,124 | -154,961 |
AIC | 348,249 | 313,382 |
BIC | 349,65 | 316,185 |
HQC | 348,697 | 314,279 |
Анализируя характеристики двух моделей можно прийти к выводу о том, что в второй модели меньше ошибка и лучше показатели качества регрессионного уравнения. Следовательно, более точной является вторая модель.
Таким образом, модель зависимости спроса на компьютеры от среднего дохода потребителей будет иметь вид: у = -846,609+2,87х.