7. Для каждого i-го объекта k-го подмножества М определяется значение дискриминантной функции:
F1(1)=0,104743×224,228+2,046703×17,115+(-0,13635)×22,981=55,38211;
F2(1)=0,104743×151,827+2,046703×14,904+(-0,13635)×21,481=43,47791;
F3(1)=0,104743×147,313+2,046703×13,627+(-0,13635)×28,669=39,41138;
F4(2)=0,104743×152,253+2,046703×10,545+(-0,13635)×10,199=36,13924;
F1(2)=0,104743×46,757+2,046703×4,428+(-0,13635)×11,124=12,44351;
………………………………………………………………………………..
F5(2)=0,104743×63,979+2,046703×4,211+(-0,13635)×12,860=13,56655.
8. По совокупности найденных значений F(k) рассчитываются средние значения
для каждого подмножества Mk:9. Определяется общее среднее (константа дискриминации) для дискриминантных функций:
10. Выполняется распределение объектов подмножества М0 по обучающим подмножествам М1 и М2, для чего по каждому объекту (i = 1, 2, 3) рассчитываются дискриминантные функции:
F1(0)=0,104743×55,451+2,046703×9,592+(-0,13635)×12,840=23,68661
F2(0)=0,104743×78,575+2,046703×11,727+(-0,13635)×15,535=30,11366
F3(0)=0,104743×98,353+2,046703×17,572+(-0,13635)×20,458=23,68661
Затем рассчитанные значения дискриминантных функций F(0) сравниваются с общей средней F=28,3556.
Поскольку
, то i-й объект подмножества М0 относят к подмножеству М1 при > 0 и к подмножеству М2 при <0. С учетом этого в данном примере предприятия 2 и 3 подмножества М0 относятся к М1, а предприятие 1 относится к М2.Если бы выполнялось условие
, то объекты М0 относились к подмножеству М1, при и к подмножеству М2 в противном случае.11. Оценку качества распределения новых объектов выполним путем сравнения с константой дискриминации F значений дискриминантных функций Fi(k)=обучающих подмножеств М1 и М2. Поскольку для всех найденных значений выполняются неравенства
, и , то можно предположить о правильном распределении объектов и уже существующих двух классах и верно выполненной классификации объектов подмножества М0.3.2 Пример решения задачи дискриминантным анализом в системе STATISTICA
Исходя из данных по 10 странам (рис. 3.1), которые были выбраны и отнесены к соответствующим группам экспертным методом (по уровню медицинского обслуживания), необходимо по ряду показателей классифицировать еще две страны: Молдавия и Украина.
Исходными показателями послужили:
Х1 – Количество человек, приходящихся на одного врача;
Х2 – Смертность на 1000 человек;
Х3 – ВВП, рассчитанный по паритету покупательной способности на душу населения (млн. $);
Х4 – Расходы на здравоохранение на душу населения ($).
Уровень медицинского обслуживания стран подразделяется на:
- высокий;
- средний (удовлетворительный);
- низкий.
Кол-во чел. на 1 врача | Расх. на здрав. | ВВП | Смертность | Класс | |
Азербайджан | 256 | 99 | 3000 | 9,6 | низкий |
Армения | 198 | 152 | 3000 | 9,7 | низкий |
Белоруссия | 222 | 157 | 7500 | 14 | высокий |
Грузия | 182 | 152 | 4600 | 14,6 | удовлетворительный |
Казахстан | 265 | 154 | 5000 | 10,6 | удовлетворительный |
Киргизия | 301 | 118 | 2700 | 9,1 | низкий |
Россия | 235 | 159 | 7700 | 13,9 | высокий |
Таджикистан | 439 | 100 | 1140 | 8,6 | низкий |
Туркмения | 320 | 125 | 4300 | 9 | удовлетворительный |
Узбекистан | 299 | 116 | 2400 | 8 | низкий |
Рис. 3.1
Используя вкладку анализ, далее многомерный разведочный анализ, необходимо выбрать дискриминантный анализ. На экране появится панель модуля дискриминантный анализ, в котором вкладка переменные позволяет выбрать группирующую и независимые переменные. В данном случае группирующая переменная 5 (класс), а независимыми переменными выступят 1-4 (кол-во человек на 1 врача; расходы на здравоохранение; ВВП на душу населения; смертность).
В ходе вычислений системой получены результаты:
Вывод результатов показывает:
- число переменных в модели – 4;
- значение лямбды Уилкса – 0,0086739;
- приближенное значение F – статистики, связанной с лямбдой Уилкса – 9,737242;
- уровень значимости F – критерия для значения 9,737242.
Значение статистики Уилкса лежит в интервале [0,1]. Значения статистики Уилкса, лежащие около 0, свидетельствуют о хорошей дискриминации, а значения, лежащие около 1, свидетельствуют о плохой дискриминации. По данным показателя значение лямбды Уилкса, равного 0,0086739 и по значению F – критерия равного 9,737242, можно сделать вывод, что данная классификация корректная.
В качестве проверки корректности обучающих выборок необходимо посмотреть результаты матрицы классификации (рис. 3.2).
Матрица классификации . Строки: наблюдаемые классы Столбцы: предсказанные классы | ||||
Процент | низкий | высокий | удовлетв | |
низкий | 100,0000 | 5 | 0 | 0 |
высокий | 100,0000 | 0 | 2 | 0 |
удовлетв | 100,0000 | 0 | 0 | 3 |
Всего | 100,0000 | 5 | 2 | 3 |
Рис. 3.2
Из матрицы классификации можно сделать вывод, что объекты были правильно отнесены экспертным способом к выделенным группам. Если есть объекты, неправильно отнесенные к соответствующим группам, можно посмотреть классификацию наблюдений (рис.3.3).
Классификация наблюдений. Неправильные классификации отмечены * | ||||
Наблюд. | 1 | 2 | 3 | |
Азербайджан | низкий | низкий | удовлетв | высокий |
Армения | низкий | низкий | удовлетв | высокий |
Белоруссия | высокий | высокий | низкий | удовлетв |
Грузия | удовлетв | удовлетв | низкий | высокий |
Казахстан | удовлетв | удовлетв | низкий | высокий |
Киргизия | низкий | низкий | удовлетв | высокий |
Россия | высокий | высокий | низкий | удовлетв |
Таджикистан | низкий | низкий | удовлетв | высокий |
Туркмения | удовлетв | удовлетв | низкий | высокий |
Узбекистан | низкий | низкий | удовлетв | высокий |
Рис. 3.3
В таблице классификации наблюдений, некорректно отнесенные объекты помечаются звездочкой (*). Таким образом, задача получения корректных обучающих выборок состоит в том, чтобы исключить из обучающих выборок те объекты, которые по своим показателям не соответствуют большинству объектов, образующих однородную группу.
В результате проведенного анализа общий коэффициент корректности обучающих выборок должен быть равен 100% (рис. 3.2).
На основе полученных обучающих выборок можно проводить повторную классификацию тех объектов, которые не попали в обучающие выборки, и любых других объектов, подлежащих группировке.
Для этого необходимо в окне диалогового окна результаты анализа дискриминантных функций нажать кнопку функции классификации. Появится окно (рис. 3.4), из которого можно выписать классификационные функции для каждого класса.
Функции классификации | |||
низкий | высокий | удовлетв | |
Кол-во чел на 1 врача | 1,455 | 2,35 | 1,834 |
Расх на здрав | 1,455 | 1,98 | 1,718 |
ВВП | 0,116 | 0,20 | 0,153 |
Смертность | 29,066 | 46,93 | 36,637 |
Конст-та | -576,414 | -1526,02 | -921,497 |
Рис. 3.4
Таблица 3
Классификационные функции для каждого класса
Низкий класс | = -576,414+1,455*кол-во чел на 1 врача+1,455*расх на здра+0,116*ВВП+29,066*смертность |
Высокий класс | =-1526,02+2,35*кол-во чел на 1 врача+1,98*расх на здрав+0,20*ВВП+46,93*смертность |
Удовлетворительный класс | =-921,497+1,834*кол-во чел на 1 врача+1,718*расх на здра+0,153*ВВП+36,637*смертность |
С помощью этих функций можно будет в дальнейшем классифицировать новые случаи. Новые случаи будут относиться к тому классу, для которого классифицированное значение будет максимальное.
Необходимо определить принадлежность стран Молдавия и Украина, подставив значения соответствующих показателей в формулы (Таблица 4).