Компонентный и факторный анализ (стр. 2 из 7)

1. не коррелированна с первой главной компонентой,

2. среди всех возможных комбинаций исходных признаков, которые не

не коррелированны с первой главной компонентой, эта комбинация имеет наибольшую дисперсию.

K-ой главной компонентой Z_k (k=1…m) мы будем называть такую центрировано – нормированную комбинацию признаков, которая:

3. не коррелированна с к-1 предыдущими главными компонентами,

4. среди всех возможных комбинаций исходных признаков, которые не

не коррелированны с к-1 предыдущими главными компонентами, эта комбинация имеет наибольшую дисперсию.

Введём ортогональную матрицу U и перейдём от переменных Х к переменным Z, причём

Вектор

выбирается т. о., чтобы дисперсия

была максимальной. После получения

выбирается

т. о., чтобы дисперсия

была максимальной при условии, что

не коррелированно с

и т. д.

Так как признаки измерены в несопоставимых величинах, то удобнее будет перейти к центрированно-нормированным величинам. Матрицу исходных центрированно-нормированных значений признаков найдем из соотношения:

где

- несмещенная, состоятельная и эффективная оценка математического ожидания,

-несмещенная, состоятельная и эффективная оценка дисперсии.

Матрица наблюденных значений исходных признаков приведена в Приложении.

Центрирование и нормирование произведено с помощью программы"Stadia".

Так как признаки центрированы и нормированы, то оценку корреляционной матрицы можно произвести по формуле:

Перед тем как проводить компонентный анализ, проведем анализ независимости исходных признаков.

Проверка значимости матрицы парных корреляций с помощью критерия Уилкса.

Выдвигаем гипотезу:

Н₀:

незначима

Н₁:

значима

Строим статистику

, распределена по закону

степенями свободы.

=125,7;

(0,05;3,3) = 7,8

т.к

, то гипотеза Н₀ отвергается и матрица является значимой, следовательно, имеет смысл проводить компонентный анализ.

Проверим гипотезу о диагональности ковариационной матрицы

Выдвигаем гипотезу:

Н₀: соv

=0,

Н₁: соv

Строим статистику

, распределена по закону

степенями свободы.

=123,21,

(0,05;10) =18,307 т.к

то гипотеза Н₀ отвергается и имеет смысл проводить компонентный анализ.

Для построения матрицы факторных нагрузок необходимо найти собственные числа матрицы

, решив уравнение

Используем для этой операции функцию eigenvals системы MathCAD, которая возвращает собственные числа матрицы:

Т.к. исходные данные представляют собой выборку из генеральной совокупности, то мы получили не собственные числа

и собственные вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со статистической точки зрения выборочные характеристики описывают соответствующие параметры для генеральной совокупности.

Доверительный интервал для i-го собственного числа ищется по формуле:

Доверительные интервалы для собственных чисел в итоге принимают вид:

Оценка значения нескольких собственных чисел попадает в доверительный интервал других собственных чисел. Необходимо проверить гипотезу о кратности собственных чисел.

Проверка кратности производится с помощью статистики

, где r-количество кратных корней.

Данная статистика в случае справедливости

распределена по закону

с числом степеней свободы

. Выдвинем гипотезы:

Так как

, то гипотеза

отвергается, то есть собственные числа

не кратны.

Далее,

Так как

, то гипотеза

отвергается, то есть собственные числа

не кратны.

Так как

, то гипотеза

отвергается, то есть собственные числа

не кратны.

Необходимо выделить главные компоненты на уровне информативности 0,85. Мера информативности показывает какую часть или какую долю дисперсии исходных признаков составляют k-первых главных компонент. Мерой информативности будем называть величину:

I₁=

=0,458

I₂=

=0,667

I₃=

На заданном уровне информативности выделено три главных компоненты.