Смекни!
smekni.com

Автоматизация процессов документооборота (стр. 3 из 11)

Число организаций, где внедрена система электронного документооборота, увеличивается, растет количество автоматизированных рабочих мест. Если ранее сферой применения систем электронного документооборота был в основном крупный и средний бизнес, то теперь дело дошло и до небольших предприятий. [1]

Системы электронного управления документами (ЭУД) обеспечивают процесс создания, управления доступом и распространения больших объемов документов в компьютерных сетях, а также обеспечивают контроль над потоками документов в организации. Часто эти документы хранятся в специальных хранилищах или в иерархии файловой системы. Типы файлов, которые, как правило, поддерживают системы ЭУД, включают текстовые документы, электронные таблицы, аудио-, видеоданные, графические объекты и документы Web. Системы ЭУД включают:

1) системы электронного документирования (делопроизводства);

2) системы электронного документооборота;

3) корпоративные системы электронного управления документами.

Очень многие поставщики и аналитические компании предлагают собственные системы классификации. Если положить в основу классификации роль документа в системе, то можно выделить два класса систем. К одному из них причислим так называемые корпоративные (или универсальные) системы управления документами (Enterprise Document Management System – EDMS), к другому – специализированные системы управления документами, ориентированные в основном на автоматизацию делопроизводственных процедур.

С документами любого содержания необходимо выполнять некоторые действия: принимать и отправлять, регистрировать, передавать по назначению, контролировать ход исполнения, накладывать резолюции. Специализированные системы (а практически все отечественные разработки в этом сегменте относятся к данному классу) как раз и предназначены для решения таких задач, например для автоматизации делопроизводственной деятельности предприятия.

Корпоративные системы управления документами – это, по сути, платформы для создания различных решений, ориентированных на обработку документов. Специализированные решения, в свою очередь, ориентированы на решение конкретных задач, таких как автоматизация традиционного отечественного делопроизводства, и внедряются они на ограниченном числе рабочих мест. При этом специализированные системы не предназначены для решения задач, связанных с содержательной частью документа. [16]

1.2 Распознавание образов как неотъемлемый этап работы в системе электронного документооборота (СЭД)

Сегодня перспективные разработки построения систем управления информацией в электронном виде связаны с распознаванием образов. В начале 90-х гг. появились технологические разработки, связанные с индексацией и поиском документов, в которых используются результаты, полученные в области искусственного интеллекта и нейронных сетей. [16]

С помощью возможностей распознавания компьютер сможет «прочесть» отсканированный текст. А затем воссоздать первоначальный вид страницы со всеми имеющимися графическими элементами в электронном виде. Использование распознавания текста после сканирования печатного издания позволяет не только обеспечить доступ к нему широкого круга лиц, но и сохранить редкий экземпляр документа. Современные технологии позволяют решить проблему разрушения бумаги при частом использовании. Это подразумевает, что теперь материалы, хранящиеся в архивах, фондах, библиотеках и редких коллекциях, могут быть активно использованы за счет электронных дубликатов.

В чистом виде такая возможность может быть полезна для:

сохранения уже имеющейся на бумажном носителе информации в электронном виде;

быстрого поиска необходимой информации;

удобства пользования информацией, представленной в электронном виде для большого количества одновременно работающих пользователей.

Распознавание текста позволяет увеличить удобство работы с информацией за счет преобразования данных на отсканированном изображении в удобные форматы текстовых редакторов (doc, pdf и т.п.). Таким образом, появляется возможность модифицировать полученный текст, использовать его в своих документах. Печатать, а также осуществлять контекстный поиск.

Работы по распознаванию отсканированного текста можно подразделить на несколько этапов:

Распознавание структуры документа. С помощью специального программного обеспечения производится распознавание структуры документа. Стоит отметить, что современное ПО имеет режим автоматического определения типа, размера и структуры фрагментов изображения (текст, таблица, рисунок), но опыт свидетельствует, что необходимо обязательно проверять правильность определения фрагментов и проводить их корректировку.

Распознавание текста. На этом этапе особенно важно правильно установить параметры программы, чтобы минимизировать ошибки распознавания. Количество ошибок распознавания зависит от таких параметров, как полиграфическое качество документа, размер и контрастность текста, сложность взаимного размещения элементов документа.

Проверка правильности распознавания. С помощью встроенных средств производится визуальная проверка соответствия неуверенно распознанных символов.

Проверка орфографических ошибок. С помощью 2 этапа, как правило, не удается от всех ошибок, поэтому необходимо также проводить проверку орфографии, например, встроенными средствами Microsoft Word.

Форматирование и оформление результирующего документа. На этом этапе формируется результирующий документ (как правило, в Microsoft Word). Устанавливаются единообразные значения параметром шрифта и абзацев. Производится размещение и формирование таблиц. Осуществляется ручной дополнительный ввод текста, формул, таблиц, автоматизированное распознавание которых не удалось произвести. Фактически, можно добиться практически полной схожести результата с исходником, включая параметры шрифтов и верстку документа.

Общее название программ для распознавания текста – Optical Character Recognition (OCR). Сейчас на рынке представлено несколько десятков подобных специализированных программных продуктов и среди них российские версии занимают одни из ведущих позиций.

Программы OCR «низкого уровня» переводят текст на бумаге в набор символов и далее предлагают самостоятельно разобраться с тем, что получилось. Для простых текстовых документов это вполне приемлемый уровень. Но если документ, который находится на сканере, имеет сложную структуру (с графическими вставками или таблицами и пр.), то такая программа сделает столько ошибок, что неизвестно, что проще – набирать текст вручную или редактировать то, что выдал сканер. [6]

Профессиональная программа OC, с помощью которой сканер сможет распознать не только символы, но и структуру документа, «понимает», где находится графика, где простой текст, где таблица. И, соответственно, делит документы на фрагменты, а каждый фрагмент согласно его свойствам вставляет в конечный файл. Разумеется, график или чертеж программа не трогает вовсе – «понимает», что здесь нечего распознавать. Она пытается восстановить таблицы именно той структуры, какой они были в оригинальном документе (с таким же распределением ячеек по столбцам и строкам).

Основное назначение OCR-систем состоит в анализе отсканированного знака и присвоении фрагменту изображения соответствующего символа. Большинство программ оптического распознавания текста работают с изображением, которое получено через факс-модем, сканер или другое внешнее устройство, например, фотоаппарат. Сначала OCR должен разбить страницу на блоки текста, основываясь на особенностях правого и левого выравнивая и наличия нескольких колонок. Затем распознанный блок разбивается на строки, которые делятся на непрерывные области изображения, соответствующего отдельным буквам.

Алгоритм распознавания делает предположения относительно совпадения этих областей с символами, а затем происходит выбор каждого символа, в результате чего страница восстанавливается в символах текста, причем, как правило, в соответствующем формате. OCR-системы могут достигать наилучшей точности распознавания свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9% получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100% ошибок, что требует человеческого контроля результатов.

Ускорить проверку результата и сделать ее более надежной пользователю поможет встроенная программа проверки орфографии.

После завершения процесса распознавания OCR-системы сохраняют формат исходных документов, присваивают в нужном месте атрибуты абзаца, сохраняют таблицы, графику и т.д. Современные программы распознавания поддерживают все известные текстовые и графические форматы и форматы электронных таблиц, а некоторые поддерживают такие форматы, как HTML и PDF. [6]

Современную OCR-систему отличают:

отличное качество распознавания и точное сохранение оформления;

документ анализируется и обрабатывается целиком, что позволяет понять такие элементы его внутренней структуры, как верхние и нижние колонтитулы, сноски, подписи к картинкам и диаграммам, стили, шрифты и т.д.;

распознавание многоязычных документов (система может работать с документами на 184 языках);

распознавание цифровых фотографий документов (сейчас для распознавания необязательно оснащать компьютер сканером). Система распознавания позволяет распознавать фотографии документов, сделанные цифровой камерой. Рекомендуется использовать цифровой фотоаппарат с разрешением матрицы 4 Мпикс и выше;