Смекни!
smekni.com

Класи технологій проектування. Поняття і основні системи кодування економічної інформації. Проектування процесу введення паперових документів (стр. 3 из 3)

• визначення ідентифікатора форм (оскільки доводиться вводить в систему найрізноманітніші форми, відмінні як за змістом, так і по структурі; для того, щоб система могла працювати з множиною форм, вона повинна визначати, яка форма поступила на обробку, і завантажувати відповідно заздалегідь налагоджене і підготовлене опис форми);

• відновлення букв і символів, якщо вони виявляються пересіченими елементами форми, наприклад лінією.

Крім того, до попередньої обробки зображення відносяться наступні функції, що підвищують надійність розпізнавання:

• обертання зображення на довільний кут;

• масштабування зображення;

• регулювання рівня сірого кольору;

• компресія і декомпресія зображення.

Процеси знаходження полів (сегментація документу) і читання текстуможуть бути виконані послідовно і незалежно, якщо поля повністю визначені своїми візуальними характеристиками. Така ситуація характерна для машиночитаємих форм і документів з явними роздільниками полів у вигляді ліній або великих проміжків. У документах, що не мають строго певного положення полів і явних роздільників між ними, немає принципово іншого способу, як прочитати текст і за його змістом скоректувати результати попередньої сегментації.

У машиночитаємих формах завдання в основному зводиться до знаходження опорних елементів і обчислення відносно них положення інформативних полів. Документи, строго заданої геометрії, що не мають, але що проте використовують явно задані роздільники, обробляються досить надійно, на приклад таблиці з роздільниками у вигляді горизонтальних та вертикальних прямих.

Найбільш складна ситуація виникає при роботі з гнучкими формами документів. Термін «гнучка» означає, що відомі склад полів, їх зразкове розташування, деякі особливості по будові полів, але відсутня повна і точна орієнтація по їх розташуванню.

Як правило, завдання обробки різних форм документів, таких, як платіжні документи, податкові декларації і інші, вирішуються індивідуально шляхом програмування з використанням загальних прийомів.

Якщо дані після розпізнавання помічені як некоректні, то вони автоматично прямують на ручне редагування. Під час редагування оператор бачить реальне зображення нерозпізнаного поля і має можливість від коректувати його. Після введення оператором нових даних знову застосовуються правила перевірки даних, тобто на усіх етапах в ведення, як автоматичного, так і ручного, здійснюється перевірка даних відповідно до правил, визначених користувачем. Великі вимоги в даному випадку пред'являються до методів перевірки даних, що вводяться. Для підвищення надійності даних використовуються додаткові механізми, такі, як застосування словників і таблиць, визначуваних користувачем. Як правило, системи включають спеціальні вбудовані засоби для визначення спеціальних процедур перевірки для кожного поля документу.

Введення даних, що містяться в документі, в інформаційну базу є завершальною операцією. При цьому може бути збережене зображення документу.

На відміну від звичайної системи розпізнавання (OCR) система введення стандартних форм використовує формальний опис початкової форми документу або бланка. Це дозволяє автоматично поміщати розпізнану інформацію в поля бази даних без участі оператора. Суворе дотримання стандартного виду форми документа істотно підвищує точність розпізнання полів документу.

Основний чинник при оцінці ефективності систем розпізнавання полягає у вартості виправлення помилок при розпізнавані, а не в точності і швидкості системи. У деяких випадках витрати на виправлення помилок при розпізнаванні можуть перекрити усі плюси автоматизації і зробити ручне введення по зображенню ефективнішим.

При розробці і використанні такої системи проектувальник вимагається виконати також великий об'єм робіт по інтеграції цієї системи введення в діючу або що розробляє інформаційну систему. На продуктивність системи дуже великий вплив чинить використовувана технологія вода так, її налаштування на поточне завдання і вид документів. Тут потрібно враховувати склад устаткування, програмне забезпечення і сумісність формату розпізнаної інформації вже що існують системами.

Існує безліч компаній, які пропонують рішення або компоненти систем обробки форм. Рішення про в системи обробки форм, а також вибір того або іншого додатки повинні робитися з обліком в першу чергу таких вимог:

•тип оброблюваних документів і вид що містяться в них даних;

•точність розпізнавання;

•наявність ефективної системи редагування;

•настроювання системи до вимог конкретного користувача і здатність змінюватися згідно зовнішніх чинників, що міняються, даним умовам без програмування;

•наявність підтримки сканерів різних типів, а також різного роду плат обробки зображень документів;

•наявність редактора форм, що налаштовує систему на нові форми або зміни старої форми, на яку система була заздалегідь орієнтована;

•наявність редактора схем обробки документів, відкритого інтерфейсу підключення різних модулів розпізнавання (залежно від типу форми можна для підвищення якості розпізнавання підключати той або інший модуль, котрі найбільш підходить для цього типу форми);

•наявність редактора схем експорту у базу даних (дані, котрі витягаються при обробці форми, мають бути, передані у базу даних для зберігання або в інші бізнес-додатки для обробки).

Ефективність застосування системи введення паперових документів в ЭИС заснована в першу чергу на значному зменшення участі людини у введенні даних. Як наслідок, можна спостерігати зменшення часу введення документів і кількості помилок. Для організацій, оброблювальних великі потоки форм (центральні податкові і поштові відомства, статистичні організації, центри авторизації за розрахунками за кредитні карти), використання описаних технологій позволить вирішити проблеми ефективності обробки сотень тисяч і навіть мільйонів форм в стислі терміни.

проектування економічний кодування інформація сканування документ

Список використаної літератури

1. «Проэктирование экономических информационных систем». Підручник. Г.Н.Смирнова, А.А. Сорокін, Ю.Ф. Тельнов. 2002 р.

2. «Інформаційні системи і технології в економіці». Посібник. За ред. В.С. Пономаренка. ВЦ «Академія». 2002 р.