Смекни!
smekni.com

Компонентный и факторный анализ (стр. 2 из 7)

1. не коррелированна с первой главной компонентой,

2. среди всех возможных комбинаций исходных признаков, которые не

не коррелированны с первой главной компонентой, эта комбинация имеет наибольшую дисперсию.

K-ой главной компонентой Zk (k=1…m) мы будем называть такую центрировано – нормированную комбинацию признаков, которая:

3. не коррелированна с к-1 предыдущими главными компонентами,

4. среди всех возможных комбинаций исходных признаков, которые не

не коррелированны с к-1 предыдущими главными компонентами, эта комбинация имеет наибольшую дисперсию.

Введём ортогональную матрицу U и перейдём от переменных Х к переменным Z, при­чём

Вектор

выбирается т. о., чтобы дисперсия
была максимальной. После получения
выбирается
т. о., чтобы дисперсия
была максимальной при условии, что
не корре­лированно с
и т. д.

Так как признаки измерены в несопоставимых величинах, то удобнее будет перейти к центрированно-нормированным величинам. Матрицу исходных центрированно-нормированных значений признаков найдем из соотношения:

,

где

- несмещенная, состоятельная и эффективная оценка математического ожидания,

-несмещенная, состоятельная и эффективная оценка дисперсии.

Матрица наблюденных значений исходных признаков приведена в Приложении.

Центрирование и нормирование произведено с помощью программы"Stadia".

Так как признаки центрированы и нормированы, то оценку корреляционной матрицы можно произвести по формуле:

.

Перед тем как проводить компонентный анализ, проведем анализ незави­симости исходных признаков.

Проверка значимости матрицы парных корреляций с помощью кри­терия Уилкса.

Выдвигаем гипотезу:

Н0:

незначима

Н1:

значима

Строим статистику

, распределена по закону
с
степенями свободы.

=125,7;
(0,05;3,3) = 7,8

т.к

>
, то гипотеза Н0 отвергается и матрица является значимой, следовательно, имеет смысл проводить компонентный анализ.

Проверим гипотезу о диагональности ковариационной матрицы

Выдвигаем гипотезу:

Н0: соv

=0,

Н1: соv

Строим статистику

, распределена по закону
с
степенями свободы.

=123,21,
(0,05;10) =18,307 т.к
>
то гипотеза Н0 отвергается и имеет смысл проводить компонентный анализ.

Для построения матрицы факторных нагрузок необходимо найти собственные числа матрицы

, решив уравнение
.

Используем для этой операции функцию eigenvals системы MathCAD, которая возвращает собственные числа матрицы:

Т.к. исходные данные представляют собой выборку из генеральной сово­купности, то мы получили не собственные числа

и собственные век­тора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со статистической точки зрения выборочные характеристики описывают соот­ветствующие параметры для генеральной совокупности.

Доверительный интервал для i-го собственного числа ищется по формуле:

Доверительные интервалы для собственных чисел в итоге принимают вид:

Оценка значения нескольких собственных чисел попадает в доверительный интервал других собственных чисел. Необходимо проверить гипотезу о кратности собственных чисел.

Проверка кратности производится с помощью статистики

, где r-количество кратных корней.

Данная статистика в случае справедливости

распределена по закону
с числом степеней свободы
. Выдвинем гипотезы:

Так как

, то гипотеза
отвергается, то есть собственные числа
и
не кратны.

Далее,

:

Так как

, то гипотеза
отвергается, то есть собственные числа
и
не кратны.

:

Так как

, то гипотеза
отвергается, то есть собственные числа
и
не кратны.

Необходимо выделить главные компоненты на уровне информативно­сти 0,85. Мера информативности показывает какую часть или какую долю дисперсии исходных признаков составляют k-первых главных компонент. Мерой информативности будем называть величину:

I1=

=0,458

I2=

=0,667

I3=

На заданном уровне информативности выделено три главных компоненты.