Смекни!
smekni.com

Многомерный регрессионный анализ (стр. 3 из 8)

Простейшая схема проверки сводится к построению доверительного интервала для каждого коэффициента регрессии и проверке гипотезы о том, находится ли нуль внутри построенного интервала. Если это так, то данный коэффициент регрессии признается незначимым или же его значимость подвергается сомнению и выявляется на следующих этапах анализа.

Схема отбора значимых факторов в уравнение регрессии с помощью t-критерия выглядит следующим образом. Если все коэффициенты регрессии значимы, то уравнение регрессии признается окончательным и принимается в качестве модели исследуемого признака для последующего анализа. Если же среди коэффициентов регрессии имеются незначимые, то соответствующие объясняющие переменные следует исключить из уравнения.

Однако предварительно следует проранжировать коэффициенты регрессии по величине tH и в первую очередь отсеять тот фактор, для которого коэффициент регрессии незначим и tH имеет наименьшее значение. Затем уравнение регрессии пересчитывается снова (уже без исключенного фактора), и производится оценка коэффициентов регрессии по t-критерию. Такую процедуру повторяют до тех пор, пока все коэффициенты регрессии в уравнении не окажутся значимыми.

При этом на каждом шаге, кроме формальной статистической проверки значимости коэффициентов регрессии, проводится экономический анализ несущественных факторов и устанавливается порядок их исключения. В некоторых случаях значение tH находится вблизи tкр, и, с точки зрения содержательности модели, этот фактор можно оставить для последующей проверки его значимости в сочетании с другим набором факторов. Возможность такого экономического анализа при формальной статистической процедуре отсеивания незначимых факторов по t-критерию является большим преимуществом этого метода многошагового регрессионного анализа.

Вместе с тем следует отметить, что несущественность коэффициента регрессии по t-критерию не всегда является надежным основанием для исключения переменной из дальнейшего анализа. Поэтому в ряде случаев для проведения многошагового регрессионного анализа с помощью t-критерия предполагается использовать некоторые дополнительные эмпирические процедуры. Например, исключать переменную из уравнения регрессии лишь в том случае, когда средняя квадратическая ошибка коэффициента регрессии превышает абсолютный размер вычисленного коэффициента, то есть когда tH по абсолютной величине меньше единицы. При этом предполагается, что нет достаточных логических оснований для того, чтобы оставлять такую переменную в модели.

Практическая часть.

Вариационные характеристики.

Для изучения корреляционного и регрессионного анализа в более подробном разрезе была взята совокупность стран Африки.

Задачей проводимого исследования является выявление и изучение зависимости данных экономических явлений.

При проведении данного исследования была взята совокупность, состоящая из 25 стран Африки:

Алжир, Ангола, Генин, Ботсвана, Бурунди, Буркина Фасо, Габон, Гамбия, Гана, Гвинея, Гвинея-Бисау, Джибути, Египет, Заир, Замбия, Зимбабве, Кабо-Верде, Кения, Коморские острова, Конго, Кот-д’Ивуар, Лесото, Либерия, Ливия.

Характеризующими являются следующие признаки: средняя продолжительность жизни (лет), численность населения (тыс. человек), доля городского населения (%), число медицинских работников на 10 тысяч населения (чел.), доля неграмотных (%), среднегодовой индекс роста производства продовольствия (%).

Но для упрощения проведения расчетов и всего исследования, а также выявления связи стоит разделить вышеописанные признаки на факторный и результативные и заменить их условными переменными (у, х1, х2, х3, х4, х5):

результативный признак (у) представляет собой среднюю продолжительность жизни (лет);

факторные признаки (х):

х1: численность населения (тыс. человек);

х2: доля городского населения (%);

х3: число медицинских работников на 10 тысяч населения (чел.);

х4: доля неграмотных (%);

х5: среднегодовой индекс роста производства продовольствия (%).

Начальные данные представлены в таблице:

┌────┬────────┬───────────┬────────┬────────┬────────┬─────────┐

│ N │ y │ x1 │ x2 │ x3 │ x4 │ x5 │

├────┼────────┼───────────┼────────┼────────┼────────┼─────────┤

│ 1 │ 63.00 │ 23102.00 │ 60.85 │ 32.70 │ 55.30 │ 87.00 │

│ 2 │ 44.50 │ 9226.00 │ 21.00 │ 12.70 │ 97.00 │ 58.00 │

│ 3 │ 46.00 │ 4304.00 │ 30.80 │ 7.50 │ 75.20 │ 108.00 │

│ 4 │ 56.50 │ 1169.00 │ 29.50 │ 35.80 │ 59.30 │ 71.00 │

│ 5 │ 48.50 │ 5001.00 │ 2.29 │ 3.80 │ 77.40 │ 101.00 │

│ 6 │ 47.20 │ 8305.00 │ 8.48 │ 8.10 │ 91.20 │ 92.00 │

│ 7 │ 51.00 │ 1058.00 │ 35.80 │ 22.30 │ 87.60 │ 98.00 │

│ 8 │ 37.00 │ 670.00 │ 18.50 │ 15.10 │ 85.20 │ 62.00 │

│ 9 │ 54.00 │ 13704.00 │ 35.86 │ 37.60 │ 69.80 │ 73.00 │

│ 10 │ 42.20 │ 6380.00 │ 19.07 │ 4.20 │ 80.00 │ 91.00 │

│ 11 │ 45.00 │ 925.00 │ 23.80 │ 38.60 │ 71.60 │ 83.00 │

│ 12 │ 64.50 │ 372.00 │ 73.95 │ 72.20 │ 80.00 │ 75.00 │

│ 13 │ 60.60 │ 50740.00 │ 45.37 │ 47.90 │ 56.50 │ 89.00 │

│ 14 │ 52.00 │ 32461.00 │ 39.50 │ 12.60 │ 42.10 │ 86.00 │

│ 15 │ 53.30 │ 7563.00 │ 40.40 │ 18.50 │ 56.00 │ 91.00 │

│ 16 │ 57.80 │ 8640.00 │ 19.60 │ 16.60 │ 29.20 │ 94.00 │

│ 17 │ 53.00 │ 10822.00 │ 34.60 │ 14.40 │ 59.50 │ 102.00 │

│ 18 │ 61.50 │ 348.00 │ 5.80 │ 18.80 │ 63.10 │ 83.00 │

│ 19 │ 53.30 │ 22936.00 │ 14.17 │ 11.20 │ 50.40 │ 93.00 │

│ 20 │ 52.00 │ 472.00 │ 11.53 │ 15.30 │ 41.60 │ 91.00 │

│ 21 │ 48.50 │ 1837.00 │ 37.27 │ 31.70 │ 84.40 │ 83.00 │

│ 22 │ 52.30 │ 11142.00 │ 37.62 │ 13.50 │ 58.80 │ 102.00 │

│ 23 │ 50.60 │ 1619.00 │ 4.52 │ 0.50 │ 48.00 │ 78.00 │

│ 24 │ 51.00 │ 2349.00 │ 32.94 │ 11.30 │ 74.60 │ 91.00 │

│ 25 │ 60.80 │ 4083.00 │ 52.40 │ 64.80 │ 49.90 │ 151.00 │

└────┴────────┴───────────┴────────┴────────┴────────┴─────────┘

Реализация алгоритма многомерного регрессионного анализа начинается с расчета важнейших статистических характеристик исходной информации и матрицы выборочных парных коэффициентов корреляции.

Рассмотрим более подробно вариационные характеристики переменной у:

. число наблюдений 25

. среднее значение 52.2440

. верхняя оценка среднего 54.5134

. нижняя оценка среднего 49.9746

. среднеквадратическое отклонение 6.6138

. дисперсия 43.7425

. дисперсия (несмещ. оценка) 45.5651

. среднекв. откл. (несмещ. оценка) 6.7502

. среднее линейное отклонение 5.0938

. моменты начальные

. 2-го поpядка 2773.1780

. 3-го поpядка 1.4943e+05

. 4-го поpядка 8.1668e+06

. моменты центpальные

. 3-го поpядка -2.1613e+01

. 4-го поpядка 5.1166e+03

. коэффициент асимметрии

. значение -0.0747

. несмещенная оценка -0.0796

. среднекв. отклонение 0.4637

. коэффициент эксцесса

. значение -0.0000

. несмещенная оценка 0.2846

. среднекв. отклонение 0.9017

. коэффициенты вариации

. по pазмаху 0.5264

. сpеднему линейному откл. 0.0975

. сpеднеквадp. откл. 0.1266

. медиана 52.0000

. мода 48.5000

. минимальное значение 37.0000

. максимальное значение 64.5000

. размах 27.5000

Проанализируем их.

Средняя продолжительность жизни в странах Африки – 52,244 года. Она вычисляется по формуле средней арифметической невзвешенной:

_

у = Σуi/n

где n – объем исследуемой совокупности.

Дисперсия в нашем случае равна 43,7425. Она представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формуле:

_

σ2 = Σ (у I – у )2 / n

Среднее квадратическое отклонение представляет собой корень второй степени из дисперсии, и в нашем случае σ = 6,6138, то есть значение продолжительности жизни в среднем отклоняется на 6,6138 лет.

А среднее линейное отклонение вычисляется по формуле:

_ _

d = Σ |уi -y| / n,

которое в нашем случае равно 5,0938 и представляет собой среднюю величину из отклонений вариантов признака от их средней.

Коэффициент вариации среднеквадратического отклонения в исследуемой нами совокупности равен Vσ = 0,1266 или 12,66%, который вычисляется по формуле:

_

Vσ = σ / у * 100%.

Коэффициент вариации характеризует не только сравнительную оценку вариации, но и дает характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%, то есть наша совокупность является однородной.

Мода – значение признака, наиболее часто встречающегося в совокупности. Она рассчитывается по формуле:

Мо = уМо + iМо * (fМо – fМо-1)/(fМо – fМо-1)*(fМо – fМо+1)

То есть по Африке наиболее часто встречающееся значение продолжительности жизни равно 48,5 лет.

Медиана – значение признака, приходящегося на середину ранжированной (упорядоченной) совокупности.

Ме = уМе + iМе * (0,5 Σf – SМе-1)/fМе.

Таким образом, в нашем случае в половине стран Африки население имеет среднюю продолжительность жизни менее 52 лет, а в другой половине – более 52 лет.

Начальным моментом порядка k случайной величины х называют математическое ожидание величины хк:

νк = М (хк),

в частности ν1 = М (х), ν2 = М (х2).