СОДЕРЖАНИЕ
Введение
1. Дискриминантный анализ как раздел многомерного статистического анализа
1.1 Методы классификации с обучением
1.2 Линейный дискриминантный анализ
3. Примеры решения задач дискриминантным анализом
3.1 Применение дискриминантного анализа при наличии двух обучающих выборок
3.2 Пример решения задачи дискриминантным анализом в системе STATISTICA
Заключение
Список использованных источников
ВВЕДЕНИЕ
Метод дискриминантного анализа впервые был применен в сфере банковской деятельности, а именно - в кредитном анализе. Здесь наиболее четко прослеживается основной подход метода, подразумевающий привлечение прошлого опыта: необходимо определить, чем отличаются заемщики, вернувшие в срок кредит, от тех, кто этого не сделал. Полученная информация должна быть использована при решении судьбы новых заемщиков. Иначе говоря, применение метода имеет цель: построение модели, предсказывающей, к какой из групп относятся данные потребители, исходя из набора предсказывающих переменных (предикторов), измеренных в интервальной шкале. Дискриминатный анализ связан со строгими предположениями относительно предикторов: для каждой группы они должны иметь многомерное нормальное распределение с идентичными ковариационными матрицами.
Основные положения дискриминантного анализа легко понять из представления исследуемой области, как состоящей из отдельных совокупностей, каждая из которых характеризуется переменными с многомерным нормальным распределением. Дискриминантный анализ пытается найти линейные комбинации таких показателей, которые наилучшим образом разделяют представленные совокупности.
При использовании метода дискриминантного анализа главным показателем является точность классификации, и этот показатель можно легко определить, оценив долю правильно классифицированных при помощи прогностического уравнения наблюдений. Если исследователь работает с достаточно большой выборкой, применяется следующий подход: выполняется анализ по части данных (например, по половине), а затем прогностическое уравнение применяется для классификации наблюдений во второй половине данных. Точность прогноза оценивается, т.е. происходит перекрестная верификация. В дискриминантном анализе существуют методы пошагового отбора переменных, помогающие осуществить выбор предсказывающих переменных.
Итак, целью дискриминантного анализа является получение прогностического уравнения, которое можно будет использовать для предсказания будущего поведения потребителей. Например, в отношении клиентов банка существует необходимость на основе некоторого набора переменных (возраст, годовой доход, семейное положение и т.п.) уметь относить их к одной из нескольких взаимоисключающих групп с большими или меньшими рисками не возврата кредита. Исследователь располагает некоторыми статистическими данными (значениями переменных) в отношении лиц, принадлежность которых к определенной группе уже известна. В примере с банком эти данные будут содержать статистику по уже предоставленным кредитам с информацией о том, вернул ли заемщик кредит или нет. Необходимо определить переменные, которые имеют существенное значение для разделения наблюдений на группы, и разработать алгоритм для отнесения новых клиентов к той или иной группе.
Дискриминантный анализ является разделом многомерного статистического анализа, который включает в себя методы классификации многомерных наблюдений по принципу максимального сходства при наличии обучающих признаков.
В дискриминантном анализе формулируется правило, по которому объекты подмножества подлежащего классификации относятся к одному из уже существующих (обучающих) подмножеств (классов). На основе сравнения величины дискриминантной функции классифицируемого объекта, рассчитанной по дискриминантным переменным, с некоторой константой дискриминации.
В общем случае задача различения (дискриминации) формулируется следующим образом. Пусть результатом наблюдения над объектом является реализация k - мерного случайного вектора
Правило дискриминации выбирается в соответствии с определенным принципом оптимальности на основе априорной информации о совокупностях
С точки зрения применения дискриминантного анализа наиболее важной является ситуация, когда исходная информация о распределении представлена выборками из них. В этом случае задача дискриминации ставится следующим образом.
Пусть
Обычно в задаче различения переходят от вектора признаков, хapaктeризующих объект, к линейной функции от них, дискриминантной функции гиперплоскости, наилучшим образом разделяющей совокупность выборочных точек.
Наиболее изучен случай, когда известно, что распределение векторов признаков в каждой совокупности нормально, но нет информации о параметрах этих распределений. Здесь естественно заменить неизвестные параметры распределения в дискриминантной функции их наилучшими оценками. Правило дискриминации можно основывать на отношении правдоподобия.
Непараметрические методы дискриминации не требуют знаний о точном функциональном виде распределений и позволяют решать задачи дискриминации на основе незначительной априорной информации о совокупностях, что особенно ценно для практических применений.
В параметрических методах эти точки используются для оценки параметров статистических функций распределения. В параметрических методах построения функции, как правило, используется нормальное распределение.
1.2 Линейный дискриминантный анализ
Выдвигаются предположения:
1) имеются разные классы объектов;
2) каждый класс имеет нормальную функцию плотности от k переменных
rде µ (i) - вектор математических ожиданий переменных размерности k;
Матрица
В случае если параметры известны дискриминацию можно провести следующим образом.
Имеются функции плотности
Ниже приведен пример оценки параметра многомерногo нормального pacпределения µ и Σ.
µ и Σ мoгyт быть оценены по выборочным данным: