1. не коррелированна с первой главной компонентой,
2. среди всех возможных комбинаций исходных признаков, которые не
не коррелированны с первой главной компонентой, эта комбинация имеет наибольшую дисперсию.
K-ой главной компонентой Zk (k=1…m) мы будем называть такую центрировано – нормированную комбинацию признаков, которая:
3. не коррелированна с к-1 предыдущими главными компонентами,
4. среди всех возможных комбинаций исходных признаков, которые не
не коррелированны с к-1 предыдущими главными компонентами, эта комбинация имеет наибольшую дисперсию.
Введём ортогональную матрицу U и перейдём от переменных Х к переменным Z, причём
Вектор
выбирается т. о., чтобы дисперсия была максимальной. После получения выбирается т. о., чтобы дисперсия была максимальной при условии, что не коррелированно с и т. д.Так как признаки измерены в несопоставимых величинах, то удобнее будет перейти к центрированно-нормированным величинам. Матрицу исходных центрированно-нормированных значений признаков найдем из соотношения:
,где
- несмещенная, состоятельная и эффективная оценка математического ожидания,-несмещенная, состоятельная и эффективная оценка дисперсии.
Матрица наблюденных значений исходных признаков приведена в Приложении.
Центрирование и нормирование произведено с помощью программы"Stadia".
Так как признаки центрированы и нормированы, то оценку корреляционной матрицы можно произвести по формуле:
.Перед тем как проводить компонентный анализ, проведем анализ независимости исходных признаков.
Проверка значимости матрицы парных корреляций с помощью критерия Уилкса.
Выдвигаем гипотезу:
Н0:
незначимаН1:
значимаСтроим статистику
, распределена по закону с степенями свободы. =125,7; (0,05;3,3) = 7,8т.к
> , то гипотеза Н0 отвергается и матрица является значимой, следовательно, имеет смысл проводить компонентный анализ.Проверим гипотезу о диагональности ковариационной матрицы
Выдвигаем гипотезу:
Н0: соv
=0,Н1: соv
Строим статистику
, распределена по закону с степенями свободы. =123,21, (0,05;10) =18,307 т.к > то гипотеза Н0 отвергается и имеет смысл проводить компонентный анализ.Для построения матрицы факторных нагрузок необходимо найти собственные числа матрицы
, решив уравнение .Используем для этой операции функцию eigenvals системы MathCAD, которая возвращает собственные числа матрицы:
Т.к. исходные данные представляют собой выборку из генеральной совокупности, то мы получили не собственные числа
и собственные вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со статистической точки зрения выборочные характеристики описывают соответствующие параметры для генеральной совокупности.Доверительный интервал для i-го собственного числа ищется по формуле:
Доверительные интервалы для собственных чисел в итоге принимают вид:
Оценка значения нескольких собственных чисел попадает в доверительный интервал других собственных чисел. Необходимо проверить гипотезу о кратности собственных чисел.
Проверка кратности производится с помощью статистики
, где r-количество кратных корней.Данная статистика в случае справедливости
распределена по закону с числом степеней свободы . Выдвинем гипотезы:Так как
, то гипотеза отвергается, то есть собственные числа и не кратны.Далее,
:
Так как
, то гипотеза отвергается, то есть собственные числа и не кратны.:
Так как
, то гипотеза отвергается, то есть собственные числа и не кратны.Необходимо выделить главные компоненты на уровне информативности 0,85. Мера информативности показывает какую часть или какую долю дисперсии исходных признаков составляют k-первых главных компонент. Мерой информативности будем называть величину:
I1=
=0,458I2=
=0,667I3=
На заданном уровне информативности выделено три главных компоненты.