Смекни!
smekni.com

Інформаційний синтез системи автоматичного розпізнавання бланків документів (стр. 5 из 11)

-

множина гіпотез;

-

множина точнісних характеристик;

-

множина значень КФЕ;
За діаграмою (2.2.1) оператори контуру


реалізують базовий алгоритм начання, який безпосередньо визначає екстремальні значення геометричних параметрів контейнерів шляхом пошуку максимуму критерію

.

Оператор

регламентує процес навчання і дозволяє оптимізувати параметри плану навчання.

Діаграма відображень множин на екзамені має такі відмінності від діаграм оптимізаційного навчання за МФСВ:

· зворотний зв’язок у діаграмі не містить контурів оптимізації параметрів функціонування СР, а призначенням оператора UЕє регламентація екзамену;

· замість оператора qвводиться оператор Р відображення вибіркової множини XÌ

,щорозпізнається, на побудоване на етапі навчання розбиття

;

· комутативне кільце утворюється між розбиттям

, множиною гіпотез I|M+1| і покриттям
;

· оператор класифікації Yутворює композицію двох операторів: Y1:

®F, де F – множина функцій належності, і оператор дефазіфікації Y2: F®I|M+1|, який вибирає гіпотезу за максимальним значенням функції належності.

З урахуванням наведених відмінностей діаграма відображень множинна екзамені набуває вигляду

(2.2.2)

У діаграмі (2.2.2) оператор Ф1 відображає універсум випробувань на вибіркову множину Х, яка утворює екзаменаційну матрицю

, аналогічну за структурою, процедурою та параметрами формування навчальній матриці.

2.3 Критерій оптимізації параметрів функціонування системи розпізнавання

Як критерій оптимізації параметрів навчання системи розпізнавання може розглядатися будь-яка статистична інформаційна міра, яка є функціоналом від точнісних характеристик. Так, широкого використання в алгоритмах навчання за МФСВ набула модифікація інформаційної міри Кульбака [19], в якій розглядається відношення правдоподібності у вигляді логарифмічного відношення повної ймовірності правильного прийняття рішень

до повної ймовірності помилкового прийняття рішень
:

де

-безумовні ймовірності появи реалізацій класів
і
відповідно, а умовні ймовірності - точнісні характеристики: перша достовірність
, помилка першого роду
помилка другого
роду
і друга достовірність
Для рівноймовірних гіпотез, що характеризує найбільш важкий у статистичному розумінні випадок прийняття рішень, міру Кульбака подамо у вигляді

(2.3.1)

Отже, критерій (2.3.1) є нелінійним функціоналом від точнісних характеристик процесу навчання. Крім того він є неоднозначним, що потребує знання робочої області його визначення. Оскільки навчальна вибірка є обмеженою за обсягом, то замість, наприклад, помилок першого та другого роду розглянемо їх оцінки:

де
- кількість реалізацій класу
, які не належать контейнеру
;
- кількість реалізацій класу
, які належать контейнеру
. Після підстановки цих оцінок у (2.3.1) отримаємо робочу формулу КФЕ за Кульбаком:

(2.3.2)

де

- кількість реалізацій класу
, які не знаходяться в k-му контейнері цього класу;
-кількість “чужих” реалізацій, які знаходяться в k-му контейнері. У виразі (2.3.2)
любе мале позитивне число, яке дозволяє уникнути появи нуля в знаменнику дробу. На практиці доцільно брати
рівним кількості знаків у мантисі значення критерію. Нормований критерійКульбака можна подати у вигляді
де
- максимальне значення критерію при
і

2.4 Базовий алгоритм навчання

Вхідною інформацією для навчання за базовим алгоритмом є дійсний, в загальному випадку, масив реалізацій образу

; система полів контрольних допусків
і рівні селекції
, які за умовчанням дорівнюють 0,5 для всіх класів розпізнавання.

Розглянемо етапи реалізації алгоритму:

1.Формування бінарної навчальної матриці

, елементи якої дорівнюють

(2.4.1)

2.Формування масиву еталонних двійкових векторів

, елементи якого визначаються за правилом:

(2.4.2)

де

- рівень селекції координат вектору
.

3. Розбиття множини еталонних векторів на пари найближчих ²сусідів²:

=<xm , xl >, де xl- еталонний вектор сусіднього класу

, за таким алгоритмом:

а) структурується множина еталонних векторів, починаючи з вектора x1 базового класу

, який характеризує найбільшу функціональну ефективність системи розпізнавання;

б) будується матриця кодових відстаней між еталонними векторами розмірності M´ M;

в) для кожної строки матриці кодових відстаней знаходиться мінімальний елемент, який належить стовпчику вектора - найближчого до вектора, що визначає строку. При наявності декількох однакових мінімальних елементів вибирається з них будь-який, оскільки вони є рівноправними;

г) формується структурована множина елементів попарного розбиття

, яка задає план навчання.

4. Оптимізація кодової відстані dm відбувається за рекурентною процедурою. При цьому приймається

.