Министерство образования Российской Федерации
Финансово-экономический факультет
КУРСОВАЯ РАБОТА
по дисциплине "Многомерные статистические методы"
Компонентный и факторный анализ
Руководитель работы
__________________ Реннер А.Г.
“____”_____________2001г.
Исполнитель
студент гр.99ст
______________ Рамазанов М.И.
“_____”____________2001г.
Оренбург 2001
Задание……………………………………………………………………………3
Введение……………………………………………………………………….….4
2 Метод главных компонент………………………………………………..….7
2.1 Вычисление главных компонент……………………………………….…7
2.2 Экономическая интерпретация полученных главных компонент…..…12
2.3 Матрица наблюденных значений главных компонент……………...….12
2.4 Классификация объектов…………………………………………………13
2.5 Уравнение регрессии на главные компоненты………………………….13
3 Факторный анализ………………………………...…………………………15
3.1 Преобразование матрицы парных коэффициентов корреляции в редуцированную матрицу, получение матрицы факторных нагрузок и экономическая интерпретация ………………………………………………..…...16
3.2 Графическая классификация объектов по двум общим факторам…….19
3.3 Переход к обобщенным факторам с помощью варимаксного
вращения ……………………………………………………………………...19
3.4 Построение функции регрессии на выделенные общие факторы…......21
Список использованной литературы………………………………………...22
Приложения………………………………………………………..………...…23
Задание
По имеющимся данным производственно-хозяйственной деятельности предприятий машиностроения:
Y1 – производительность труда;
X5 – удельный вес рабочих в составе ППП;
X6 – удельный вес покупных изделий;
X7 – коэффициент покупных изделий;
X9 – удельный вес потерь от брака;
X17 – непроизводственные расходы.
1. Выявить наличие мультиколлинеарности.
2. Снизить размерность признакового пространства и удалить наличие мультиколлинеарности следующими методами:
Метод главных компонент:
- для факторных признаков найти оценку матрицы парных коэффициентов корреляции, найти собственные числа и собственные вектора;
- на основании матрицы собственных чисел определить вклад главных компонент в суммарную дисперсию признаков, отобрать и указать m (m<n) первых главных компонент, обеспечивающих уровень информативности 0.85;
- построить матрицу факторных нагрузок A и дать экономическую интерпретацию;
- по матрице наблюденных значений главных компонент F провести классификацию объектов по первым двум главным компонентам, дать интерпретацию;
- используя вектор значений результативного признака Y и матрицу F построить уравнение регрессии.
Метод общих факторов:
- оценить матрицу парных коэффициентов
;- преобразовать матрицу
в редуцированную матрицу h;- получить первые три общих фактора и дать экономическую интерпретацию по матрице факторных нагрузок;
- на основе матрицы F провести графически классификацию объектов по первым двум общим факторам;
- построить функцию регрессии на выделенные общие факторы.
Введение
Наличие множества исходных признаков, характеризующих процесс функционирования объектов, заставляет отбирать из них наиболее существенные и изучать меньший набор показателей. Чаще исходные признаки подвергаются некоторому преобразованию, которое обеспечивает минимальную потерю информации. Такое решение может быть обеспечено методами снижения размерности, куда относят факторный и компонентный анализ. Эти методы позволяют учитывать эффект существенной многомерности данных, дают возможность лаконичного или более простого объяснения многомерных структур. Они вскрывают объективно существующие, непосредственно не наблюдаемые закономерности при помощи полученных факторов или главных компонент. Они дают возможность достаточно просто и точно описать наблюдаемые исходные данные, структуру и характер взаимосвязей между ними. Сжатие информации получается за счет того, что число факторов или главных компонент – новых единиц измерения – используется значительно меньше, чем было исходных признаков.
1. Исследование на мультиколлинеарность объясняющие переменные.
Приведем результаты по исследованию на мультиколлинеарность:
1) Коэффициенты корреляционной матрицы для объясняющих переменных не превышают 0,75, то есть тесная линейная связь между компонентами не подозревается.
2) Найдем определитель матрицы XTX, det(XTX)= 1.425E+6 - мал. Необходимое условие мультиколлинеарности (плохой обусловленности системы).
3) В численных методах обусловленность системы характеризуется числом обусловленности М
, где - собственные числа матрицы системы линейных уравнений.
Если число обусловленности велико, то система плохо обусловлена (порядка выше 10).
Собственные числа матрицы
=2.292, =1.042, =0.952, =0.659, =0.055.- велико система плохо обусловлена.
4) Анализ корреляционной матрицы
позволяет лишь в первом приближении (и относительно поверхностно) судить об отсутствии мультиколлинеарности в наших исходных данных. Более внимательное изучение этого вопроса достигается с помощью расчёта значений коэффициентов детерминации каждой из объясняющих переменных на все остальные.
Проверим с уровнем
значимость множественных коэффициентов корреляции.Строим статистику:
Если
Т. к. все
то отвергаем нулевую гипотезу, т. е. будем считать, что все генеральные множественные коэффициенты корреляции не равны нулю, т. е. значимы.Для наибольшего значимого множественного коэффициента корреляции получим оценку уравнения регрессии.
(0,302) (0,524) (0,0003) (0,079)
С учётом значимых коэффициентов получим:
Выявили наличие мультиколлениарности, одним из методов ее устранения является метод главных компонент.
Компонентный анализ относится к многомерным методам снижения размерности. Он содержит один метод – метод главных компонент. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.
Учитывая, что объекты исследования в экономике характеризуются большим, но конечным количеством признаков, влияние которых подвергается воздействию большого количества случайных причин.
2.1 Вычисление главных компонент
Первой главной компонентой Z1 исследуемой системы признаков Х1, Х2, Х3 , Х4 ,…, Хn называется такая центрировано – нормированная линейная комбинация этих признаков, которая среди прочих центрировано – нормированных линейных комбинаций этих признаков, имеет дисперсию наиболее изменчивую.
В качестве второй главной компоненты Z2 мы будем брать такую центрировано – нормированную комбинацию этих признаков, которая: