ηY, ηL2, ηL1 - норми навчання (значення норми навчання, наприклад, 0,5).
З метою контролю процесу навчання мережі для матриці W визначаються:
Min – мінімальне значення;
Max – максимальне;
Ms – математичне сподівання;
Sigma – середньоквадратичне відхилення
Дані для нейронної мережі можна поділити наступним чином:
1. Навчання (відомі вхідні і вихідні дані, визначити вагові коефіцієнти)
2. Тестування (відомі вхідні і вихідні дані, порівняти розраховані вихідні дані з істинними)
3. Діагностика (реальне визначення результатів за вхідними даними)
9. Мережі зустрічного розповсюдження. Шари Кохонена і Гроссберга
Основною перевагою НМ зустрічного розповсюдження є порівняно малий час навчання (приблизно в 100 разів менше, ніж для зворотного розповсюдження помилки). В зустрічному розповсюдженні об'єднані два добре відомих алгоритми: карта Кохонена і зірка Гроссберга.
Мережа зустрічного розповсюдження функціонує подібно до довідкового бюро. В процесі навчання вхідні вектори асоціюються з відповідними вихідними векторами. Ці вектори можуть бути двійковими або неперервними. Коли мережа навчена, обробка вхідного вектора приводить до необхідного вихідного вектора. Узагальнююча здатність мережі дозволяє одержувати правильний вихід навіть при пошкодженого вхідного вектора. Це дозволяє використовувати дану мережу для розпізнавання і відновлення образів.
Структура НМ зустрічного розповсюдження наступна (рис.11)
Рис.11. НМ зустрічного розповсюдження без зворотних зв’язків
Нейрони шару 0 (круги) служать лише точками розгалуження і не виконують обчислень. Кожен нейрон шару 0 сполучений з кожним нейроном шару 1 (шару Кохонена) окремою вагою wmn. Ця вага в цілому розглядається як матриця ваг W. Аналогічно, кожен нейрон в шарі Кохонена (шарі 1) сполучений з кожним нейроном в шарі Гроссберга (шарі 2) вагою vnp. Ця вага утворює матрицю ваг V. Зустрічне розповсюдження функціонує в двох режимах: у нормальному режимі, при якому приймається вхідний вектор Х і видається вихідний вектор У, і в режимі навчання, при якому подається вхідний вектор і ваги коректуються, щоб дати необхідний вихідний вектор.
НОРМАЛЬНЕ ФУНКЦІОНУВАННЯ
Шари Кохоненна. У своїй простій формі шар Кохонена функціонує за принципом «переможець забирає все», тобто для даного вхідного вектора один і лише один нейрон Кохонена видає на виході логічну одиницю, всі інші видають нуль. Переможцем є нейрон з максимальним значенням вихідного сигналу
.Вихід нейронів шару Гроссберга є сумою
.Шар Кохонена класифікує вхідні вектори в групи схожих. Це досягається за допомогою такого налагодження ваг шару Кохонена, що близькі вхідні вектори активують один і той же нейрон даного шару. Задачею шару Гроссберга є отримання необхідних виходів. Навчання шару Кохонена є самонавчанням, що виконується без вчителя
10. Стохастичні методи
Стохастичні методи корисні як для навчання штучних нейронних мереж, так і для отримання виходу від вже навченої мережі. Стохастичні методи навчання приносять велику користь, дозволяючи виключати локальні мінімуми в процесі навчання. Проте з ними також зв'язаний ряд проблем. Штучна нейронна мережа навчається за допомогою деякого процесу, що модифікує її вагу. Якщо навчання успішне, то пред'явлення мережі множини вхідних сигналів приводить до появи бажаної множини вихідних сигналів. Є два класи повчальних методів: детерміністичний і стохастичний.
Детерміністичний метод навчання крок за кроком здійснює процедуру корекції ваг мережі, засновану на використанні їх поточних значень, а також величин входів, фактичних виходів і бажаних виходів. Зворотне розповсюдження помилки є прикладом подібного підходу.
Стохастичні методи навчання виконують псевдовипадкові зміни величин ваг, зберігаючи ті зміни, які ведуть до поліпшень. Для навчання мережі може бути використана наступна процедура:
1. Вибрати вагу випадковим чином і змінити її на невелику випадкову величину. Пред'явити множину входів і обчислити виходи.
2. Порівняти виходи з бажаними виходами і обчислити величину різниці між ними. Загальноприйнятий метод полягає в знаходженні різниці між фактичним і бажаним виходами для кожного елементу навчаної пари. Метою навчання є мінімізація цієї різниці (цільової функції).
3. Якщо зміна ваги допомагає (зменшує цільову функцію), то зберегти її, інакше повернутися до первинного значення ваги.
Повторювати кроки з 1 до 3 до тих пір, поки мережа не буде навчена достатньою мірою.
Однією з найбільших проблем при навчанні НМ є локальні мінімуми (рис.12).
Рис.12. Проблема локальних мінімумів
Для вирішення проблеми локальних мінімумів використовується наступний метод. Штучні нейронні мережі навчаються спочатку грубим налагодженням ваг, а потім більш точним. На першому етапі робляться великі випадкові корекції із збереженням тільки тих змін ваг, які зменшують цільову функцію. Потім середній розмір кроку поступово зменшується, і глобальний мінімум досягається. Це нагадує відпал металу, тому для опису такої методики використовують термін «імітація відпалу». У металі, нагрітому до температури, що перевищує його точку плавлення, атоми знаходяться в сильному безладному русі. Як і у всіх фізичних системах, атоми прагнуть до стану мінімуму енергії (єдиному кристалу в даному випадку), але при високих температурах енергія атомних рухів перешкоджає цьому. В процесі поступового охолоджування металу виникають все більш низькоенергетичні стани, поки не буде досягнуто глобальний мінімум. В процесі відпалу розподіл енергетичних рівнів описується наступним співвідношенням (розподілом Больцмана):
P(e)= exp(-е/kT)
де Р(е) – ймовірність того, що система знаходиться в стані з енергією е; k - постійна Больцмана; Т - температура за шкалою Кельвіна.
При високих температурах Р(е) наближається до одиниці для всіх енергетичних станів. У міру зменшення температури ймовірність високоенергетичних станів зменшується в порівнянні з низькоенергетичними.У випадку НМ Р(е) – ймовірність того, що буде збережена зміна ваги, яка приводить до збільшення цільвої функції.
11. Мережі зі зворотними зв’язками, мережі Хопфілда
Одними із НМ зі зворотними зв’язками є мережі Хопфілда.
Мережі зі зворотними зв'язками мають шляхи, що передають сигнали від виходів до входів, тому відгук таких мереж є динамічним, тобто після зчитування нового входу обчислюється вихід і, передаючись по мережі зворотного зв'язку, модифікує вхід. Потім вихід повторно обчислюється, і процес повторюється знову і знову. Для стійкої мережі послідовні ітерації приводять до все менших змін виходу, поки вихід не стає постійним. Для багатьох мереж процес ніколи не закінчується, такі мережі називають нестійкими. Нестійкі мережі володіють цікавими властивостями і вивчалися як приклад хаотичних систем.
Розглянемо мережу зі зворотними зв’язками, яка містить 1 шар
Рис.13 Одношарова НМ зі зворотними зв’язками. Пунктирні лінії позначають нульові ваги.
В першій роботі Хопфілда функція F була просто пороговою відносно порогу T. Вона обчислюється наступним чином:
,OUT= 1, якщо NETj>Тj,
OUT = 0, якщо NETj<Тj,
OUT не змінюються, якщо NETj = Тj,
Мережа з зворотними зв’язками є стійкою, якщо її матриця симетрична й має нулі на головній діагоналі, тобто якщо wij = wji й wii = 0 для всіх i.
Людська пам'ять асоціативна, тобто деякий спогад може породжувати велику пов'язану з ним область. Наприклад, декілька музичних тактів можуть викликати цілу гамму спогадів, включаючи пейзажі, звуки і запахи. Навпаки, звичайна комп'ютерна пам'ять адресується локально.
Мережа із зворотним зв'язком формує асоціативну пам'ять. Подібно людській пам'яті по заданій частині потрібної інформації вся інформація витягується з «пам'яті». Щоб організувати асоціативну пам'ять за допомогою мережі із зворотними зв'язками, вага повинна вибиратися так, щоб утворювати енергетичні мінімуми в потрібних вершинах одиничного гіперкуба.
Хопфілд розробив асоціативну пам'ять з безперервними виходами, що змінюються в межах від +1 до -1, відповідних двійковим значенням 0 і 1. Інформація, що запам'ятовується, кодується двійковими векторами і зберігається у вагах згідно наступній формулі:
де m - число вихідних векторів, що запам'ятовуються; d - номер вихідного вектора, що запам'ятовується; OUTi,j - i-компоненту вихідного вектора, що запам'ятовується.
12. Адаптивна резонансна теорія
Мозок людини виконує важку задачу обробки безперервного потоку сенсорної інформації, одержуваної з навколишнього світу. З потоку тривіальної інформації він повинен виділити життєво важливу інформацію, обробити її і, можливо, зареєструвати в довготривалій пам'яті. Розуміння процесу людської пам'яті є серйозною проблемою; нові образи запам'ятовуються в такій формі, що раніше запам'ятовані не модифікуються і не забуваються. Це створює дилему: яким чином пам'ять залишається пластичною, здібною до сприйняття нових образів, і в той же час зберігає стабільність, що гарантує, що образи не знищаться і не руйнуватимуться в процесі функціонування?