З діаграми побудованого дерева видно, що був виконаний поділ на 3 класи, що визначає поділ регіонів на енергоємні, середні та мало споживаючі групи.
Використання методу к-середніх одного з найбільш популярних методів кластеризації зазначене на рис. 3.10. Алгоритм є модифікацією EM -алгоритму для розподілу. Він розбиває множину елементів векторного простору на заздалегідь відоме число кластерів k , як зазначено на рис. 3.11. Дія алгоритму така, що він прагне мінімізувати дисперсію на точках кожного кластера.
Рис. 3.10. Вибір метода кластеризації
Основна ідея полягає в тому, що на кожній ітерації перерозраховується центр мас для кожного кластера, отриманого на попередньому кроці, потім вектори розбиваються на кластери знову відповідно до того, який з нових центрів виявився ближче по выбраной метриці. Алгоритм завершується, коли на якійсь ітерації не відбувається зміни кластерів.
Рис. 3.11. Задання числа кластерів
В результаті отримали вікно з результатами зазначене на рис. 3.12. де видно, що попередньо було задано 3 кластери та 5 змінних:
Рис. 3.12. Вікно з результатами
Цей метод кластеризації дозволяє також отримати додаткову інформацію стосовно середніх значень по об’єктах ,які зазначені на рисунку 3.13. та евклідової відстані між центрами кластерів зазначеної на рисунку 3.14.:
Рис. 3.13. Результати середніх значень по об’єктах
Рис. 3.14. Евклідова відстань між центрами кластерів
З приведених результатів бачимо, що кластеризація виконана вірно, бо значення евклідової відстані та кластеризації суттєво відрізняються. Як видно з рис. 3.15., якість кластеризації задовольняє, окрім показників Х5 та Х2:
Рис. 3.15. Результати якості кластеризації
Графічне зображення середніх по факторам на рис. 3.16., дає змогу сказати, що кластери 2 та 3 розділені дуже тонкою гранню, а отже регіони, що потрапили до останнього повинні вдосконалити своє споживання енергоресурсів для того щоб не понести додаткові збитки. Тобто є необхідність введення додаткових іноваційних технологій та обрати шляхи оптимізації.
Рис. 3.16. Графічне зображення середніх по факторам
З рис.3.17. бачимо, що в результаті побудови моделі аналізу енергоспоживання регіони були поділені на 3 кластери ,як і було вказано вище, по 5, 7 та 14 відповідно. Це, перш за все, вказує на те що Україна має як регіони з низким рівнем споживання так і наділена дуже енергозатратними.
Рис. 3.17. Результати статистики по кластерам
На рис. 3.18. представлені більш розгорнуті результати відносно кластерів, а саме які регіони до якої групи належать з зазначенням відстаней до центрів:
Остаточні результати поділу регіонів на групи зазначені на рис. 3.19.
Рис. 3.19. Результати поділу регіонів на групи
Наступним методом, який дасть змогу охарактеризувати регіони є кластерний аналіз за допомогою карт Кохонена.
Призначень у використання карт Кохонена досить багато, одне з найвагоміших є те, що підприємства можна розбивати по рівню споживання електроенергії. Приведені в рис. 3.20. дані, є відображенням статистики енергоспоживання регіонів та міста Київ, які визначені у відповідних еквівалентах.
Для побудови моделі були використані дані споживання енергоресурсів підприємств-представників, ЖКГ та іншими споживачами енергоресурсів. Проведення досліджень з такими даними, адже вони приведені до одних одиниць виміру, що в даному випадку виступає нафтовий еквівалент.
Як і при роботі із звичайними нейромережами, операція з картами Кохонена складається з декількох послідовних етапів. Першим з них є етап знаходження складу входів. Для нормального навчання звичайної нейромережі треба вибрати таку множину входів, яка найбільш сильно впливає на вихідні (прогнозовані) значення. Якщо ми вгадали, і входи дійсно впливають на виходи, то нейромережа буде працювати і давати відмінні прогнози.
Рис. 3.20. Статистичні дані регіонального енергоспоживання
Алгоритм функціонування карт (Self Organizing Maps - SOM), що самоорганізуються, є одним з варіантів кластеризації багатовимірних векторів. Процес вибору типу обробки даних зображений і задаємо, як зображено на рис. 3.20. вхідні змінні, а також їх типи.
В процесі навчання карт Кохонена на входи також подаються дані і індикатори, вказані на рис. 3.21., але при цьому мережа підстроюється під закономірності у вхідних даних, а не під еталонне значення виходу.
Рис. 3.21. Задання вхідних змінних та їх типів
Розбиваємо вихідну множину даних на навчальне і тестове (співвідношення 90% до 10%), як на рис. 3.22. Задаємо конфігурацію сітки (шестикутна), а також кількість нейронів в мережі. Для якнайкращих результатів рекомендується, щоб кількість вічок складала до 50% від об'єму даних.
Рис. 3.22. Розбиття вихідну множину на підмножини
Налагоджуємо параметри зупинки навчання (мінімальна помилка менше 0,15, кількість епох - 1000) і задаємо фіксовану кількість кластерів, рівну трьом.
Рис. 3.23. Задання параметрів навчання карт Кохонена
Запускаємо побудову карт Кохонена і вибираємо ті карти і таблиці, на які хочемо звернути увагу, відображені на рис. 3.24. - 3.26.
Рис. 3.23. Запуск процеса побудови
Рис. 3.24. Вибір способів відображення
Рис. 3.25. Вибір відображення карт та їх настройки
Для кожного входу нейрона складається своя карта, яка розфарбовується у відповідності зі значенням відповідної нейрона. У нейронної мережі, навчаємої зі вчителем, ваги нейронів не мають фізичного сенсу і не використовуються в аналізі.
У спільному випадку вхідні приклади рівномірно розподіляються по карті. Але якщо в даних є яскраво виражені групи, то приклади розподіляються нерівномірно, утворюючи кластери, відображені на рис. 3.28.
Провівши попередні кроки, отримали карти, на яких можна побачити до якого кластера відноситься те або інше значенняпоказника.
Правило навчання, запропоноване Кохоненом, передбачає змагання з врахуванням відстані нейронів від нейрона-переможця. Це вимагає побудови матриці відстаней, зображеній на рис. 3.29.
Матриця відстаней (уніфікована матриця відстаней, U-matrix) - застосовується для візуалізації структури кластерів, отриманих в результаті навчання карти. Елементи матриці визначають відстань між ваговими коефіцієнтами нейрона і його найближчими сусідами. Велике значення говорить про те, що даний нейрон сильно відрізняється від тих, що оточують і відноситься до іншого класу.
Матриця помилок квантування, відображена на рис. 3.30. - відображує середню відстань від розташування прикладів до центру вічка. Приклад розташовується в багатовимірному просторі, де кількість вимірів дорівнює числу вхідних полів. Центр вічка - точка простору з координатами, рівними вагам нейрона. Відстань вважається як евклідова відстань. Матриця помилок квантування показує, наскільки добре вивчена нейромережа. Чим менше середня відстань до центру вічка, тим ближче до неї розташовані приклади і тим краще побудована модель.
Матриця щільності попадання, відображена на рис. 3.31. - відображає кількість прикладів, що попали у вічко.
Кластери, зображені на рис. 3.32. - відображують групи векторів, відстань між якими менше, ніж відстань до сусідніх груп. Іншими словами, всі елементи карти, що попали в область одного кольору (кластер), мають схожі ознаки.
Проекція Самсона, зображена на рис. 3.33. - матриця, що є результатом проектування багатовимірних даних на плоскість. При цьому дані, розташовані поруч у вихідній багатовимірній вибірці, будуть розташовані поруч і на плоскості.
За допомогою карт Кохонена підприємства були розбиті по рівню споживання електроенергії. Розділення можна вважати досить хорошим, оскільки при максимальній помилці 0,15 рівнів розпізнавання в тестовій і перевірочній множині 99,11 і 91,67% відповідно.
Рис. 3.34. Відображення значень аналізу
Результати даної роботи, вказані на рис. 3.34, можуть бути використані для оцінки енергоспоживання регіонами України при заданому наборі показників.
Недоліком є те, що в моделі враховані лише кількісні ознаки. А вони не можуть повною мірою описати енергоспоживання регіонів України, адже існує безліч якісних які і можуть дати бів полне уявлення про стан енергоспоживання.
Як висновок можна сказати, що сформована класифікація регіонів за основними характеристиками і складовими елементами енергоефективності, що дозволяє провести диференціацію регіонів по наявності і ефективності використання енергетичних ресурсів.