2. Многофакторный корреляционно-регрессионный анализ
На основании вышеперечисленных показателей составить матрицу и по программе STRAZ решить задачу множественной корреляции.
По совокупности хозяйств построить корреляционное уравнение связи урожайности зерновых и зернобобовых культур с включением трех-четырех факторов.
Анализ корреляционной модели начинается с определения тесноты связи, ее характеризует коэффициент корреляции (R). Он может изменяться от 0 до 1, что свидетельствует об отсутствии связи или о слабой, средней и тесной связи.
Квадрат коэффициента множественной корреляции называется коэффициентом множественной детерминации. Он характеризует величину вариации результативного признака, которая объединяется факторами, входящими в модель. В матрице этот коэффициент равен, например, 0,4321, для анализа необходимо перевести его в проценты, что составит 43%. Это значит, что 43% вариации результативного признака обусловлено влиянием факторов, включенных в модель, или на 43% выбранные факторы влияют на величину У (урожайность).
Коэффициенты отдельного определения или частные коэффициенты детерминации отражают «чистый вклад» каждого фактора в воспроизведенную вариацию результативного признака. Наибольшую тесноту связи с результативным признаком имеет тот фактор, коэффициент при котором наибольший (например, если коэффициент при Х4 равен 0,5, это значит, что качество земли на 50% влияет на уровень урожайности).
Коэффициенты чистой регрессии показывают, на сколько ц с 1 га увеличится урожайность при изменении фактора на 1 единицу измерения. Например, если коэффициент при Х3 равен 0,3, это значит, что при увеличении энергообеспеченности на 1 л.с., урожайность увеличится на 0,3 ц с 1 га.
Каждый из
-коэффициентов показывает, на сколько средних квадратических отклонений изменится в среднем урожайность, если соответствующий фактор изменится на одно среднее квадратическое отклонение. Сопоставляя -коэффициенты между собой, можно определить, какой фактор оказывает наиболее сильное влияние на варьирование результативного признака.Каждый из коэффициентов эластичности показывает, на сколько процентов в среднем изменится урожайность, если соответствующий фактор изменится на 1%.
Знак + или - говорит о прямой или обратной связи между урожайностью и фактором.
Построить уравнение регрессии:
у=а0 + a1x1 + а2х2 + ... +anxn, где: (1)
а0 — свободный член, экономического значения не имеет;
a1, a2, an- коэффициенты чистой регрессии;
x1, х2, xn - значения соответствующих факторов.
у=153,4+3,7*9594+0,04*9382+(-4,3)*5848+(-0,01)*5020+(-0,01)*4700+5,2*4090+0,1*3915+2*3735+0,2*3700
На основании полученного уравнения регрессии рассчитать прогнозируемый уровень урожайности для хозяйств зоны. Для этого в уравнение вместо X подставить самые высокие их значения из матрицы и вместо а - соответствующие значения коэффициентов.
Полученный результат означает, что в хозяйствах, где урожайность выше среднего уровня, в будущем возможно достичь прогнозируемого уровня урожайности и при условии достижения каждым хозяйством максимальных значений факторов (или минимальных, если коэффициент со знаком «минус»). [10, с.109]
Произведем расчет множественной регрессии в MS Excel. (Приложение В)
3. Вычисление параметров парной регрессии и корреляции
Рассмотрим взаимосвязь между фактической посевной площадью (Y) и наличием тракторов (Х). Исходные данные. (Приложение А)
Все расчеты сведены в таблицу. (Приложение Б)
Линейная модель парной регрессии и корреляции
Рассмотрим простейшую модель парной регрессии – линейную регрессию. Линейная регрессия находит широкое применение в эконометрике ввиду четкой эконометрической интерпретации ее параметров.
Линейная регрессия сводится к нахождению уравнения вида
, (2)где а – свободный член уравнения регрессии, y – среднее значение результативного признака, b – коэффициент регрессии, характеризующий силу связи между вариацией факторного признака и и вариацией результативного признака.
Составим систему линейных уравнений для оценки параметров а и b:
(3)Решая систему уравнений (3), найдем искомые оценки параметров а и b.
Получаем уравнение парной регрессии
3.1 Выборочный коэффициент корреляции
Корреляция – это взаимосвязь между признаками, заключающаяся в измерении средней величины результативного признака в зависимости от значения факторов. При этом изменения одной или нескольких из этих величин приводит к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.
Коэффициент корреляции или парный коэффициент корреляции в теории вероятностей и статистике – это показатель характера изменения двух случайных величин. Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи – например, для независимых случайных величин).
Отрицательная корреляция – корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен.
Положительная корреляция – корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.
Автокорреляция – статистическая взаимосвязь между случайными величинами из одного ряда, взятых со сдвигом, например, для случайного процесса – со сдвигом по времени. [16, с.209]
Рассчитаем линейный коэффициент парной регрессии:
(5)3.2 Выборочный коэффициент детерминации
Коэффициент детерминации — это квадрат множественного коэффициента корреляции. Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.
Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.
Коэффициент принимает значения из интервала [0;1]. Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.
Функциональная связь возникает при значении равном 1, а отсутствие
связи — 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение. [1, с.79]
Рассчитаем коэффициент детерминации:
(6)3.3 Средняя ошибка аппроксимации
Средняя ошибка аппроксимации – это среднее отклонение расчетных данных от фактических. Она определяется в процентах по модулю.
Фактические значения результативного признака отличаются от теоретических. Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, это лучшее качество модели. Величина отклонений фактических и расчетных значений результативного признака по каждому наблюдению представляет собой ошибку аппроксимации. Их число соответствует объему совокупности. В отдельных случаях ошибка апроксимации может оказаться равной нулю. Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям.
Поскольку может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю. Отклонения можно рассматривать как абсолютную ошибку аппроксимации, и как относительную ошибку аппроксимации. Чтоб иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую. [16, с.106]