документа.

После настройки всех параметров следует щелкнуть на кнопке Сканировать (надпись на кнопке может быть иной). Процесс сканирования происходит автоматически, и изображение передается в приложение. Диалоговое окно драйвера
TWAIN автоматически не закрывается, так что, например, в многооконных графических редакторах (таких, как
Adobe PhotoShop) можно сразу провести сканирование нескольких изображений.
Распознавание документов

Этап
распознавания документа состоит в преобразовании электронного изображения (фактически набора цветных или черно-белых точек) в текстовый документ. Ранее для описания этого процесса обычно использовался термин
OCR (Optical Character Recognition), который соответствует одному из используемых методов. При таком подходе происходит «сравнение» элемента изображения с эталонными

17.1. Преобразование документов в электронную форму 49
1вариантами начертания символов, после чего выбирается наиболее подходящий символ. Этот подход требует использования специального комплекта шрифтов, но дает на нем наилучшие результаты. Современные алгоритмы распознавания не привязаны к конкретному начертанию символов: программа, как и человек, способна узнавать буквы при любых начертаниях (а иногда и при значительных искажениях).

В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют
сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки — на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.
Работа с программой FineReaderВсе операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader (рис. 17.2). Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. С ее помощью можно выполнять пакетную обработку многостраничных документов, а также настраивать режим распознавания для улучшения соответствия электронного документа бумажному оригиналу при плохом качестве последнего или использовании в нем шрифтов, далеких от стандартных.
Основные операции обработки бумажного документа в программе FineReader выполняются с помощью панели инструментов Scan&Read. С точки зрения этой программы, процесс обработки документа состоит из пяти этапов:
• сканирование документа (кнопка Сканировать);
• сегментация документа (кнопка Сегментировать);
• распознавание документа (кнопка Распознать);
• редактирование и проверка результата (кнопка Проверить);
• сохранение документа (кнопка Сохранить).

Сканирование документа. На этапе
сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать на панели инструментов Scan&Read. В программе
FineReader сканирование может производиться как через драйвер
TWAIN, так и в обход его. Первый способ используют, когда требуется точная настройка параметров сканирования, когда документ включает цветные иллюстрации, которые необходимо сохранить, а также когда разные страницы многостраничного документа сильно различаются по качеству. Второй вариант обеспечивает максимальную скорость и удобство сканирования. Выбор используемого варианта осуществляется при помощи флажка Показывать диалог TWAIN-драйвера сканера (Сервис • Опции > Сканирование).

492 Глава 17. Автоматизация обработки документов
Панель Панель Панель Панель

Стандартная
Окно Пакет Окно Крупный план Окно Изображение
Рис. 17.2. Рабочее окно программы FineReader в процессе распознавания отсканированного документаПроцесс сканирования осуществляется автоматически и требует от пользователя только вспомогательных операций, таких, как смена сканируемой страницы. Возможность вмешательства в работу программы заблокирована размещением на экране специального диалогового окна, уведомляющего о том, что идет сканирование, и позволяющего прервать это процесс.
По завершении сканирования значки всех обработанных страниц отображаются в окне Пакет. В основной части рабочей области появляется окно Изображение, содержащее изображение текущей страницы. Добавлять страницы в пакет можно не только путем сканирования, но и путем открытия файлов с изображениями, имеющихся на компьютере.

17.1. Преобразование документов в электронную форму 493
Распознавание документа. Этап распознавания текста документа можно разделить на две операции, выполняемые поочередно. Первая операция — сегментация, разбиение страницы на блоки текста. Обычная книжная страница представляет собой единый блок текста, который распознается в естественном порядке — по строкам, расположенным на странице сверху вниз и идущим от левого края до правого. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции.

В таком случае содержимое страницы разбивается на
блоки. Внутри каждого блока сохраняется естественный порядок распознавания. Блоки нумеруются, исходя из порядка включения их в документ. Программа
FineReader способна выполнить сегментацию (определить границы блоков) автоматически даже для весьма сложных страниц. При этом учитываются поля документа, просветы между колонками, рамки.

Если структура страницы очень сложна или содержит явные дефекты, которых не всегда удается избежать при сканировании, удобнее использовать
ручную сегментацию или ручное редактирование результатов автоматической сегментации. Блоки отображаются в виде цветных прямоугольников с номером в левом верхнем углу. Новый блок создают протягиванием мыши по диагонали прямоугольника. Текущий блок помечается выделенной линией, а его углы — прямоугольными маркерами. С помощью этих маркеров можно изменить размер или положение блока.
Команды редактирования блоков выведены на панель Изображение. Они позволяют:
• объединить два блока в один (Добавить часть к блоку);
• удалить фрагмент блока (Удалить часть блока);
• изменить порядок нумерации блоков (Перенумеровать блоки);
• изменить разбиение таблицы на ячейки (Добавить вертикаль, Добавить гори-зонталь, Удалить линии).
Разные типы блоков обрабатываются программой по-разному. Чтобы изменить тип блока, надо щелкнуть правой кнопкой мыши в его пределах и назначить новый тип с помощью меню Тип блока в контекстном меню. Программа FineReader поддерживает следующие типы блоков:
• автоматический (Зона распознавания) — на этапе распознавания анализируетсяи разбивается на блоки автоматически;
• текстовый (Текст) — на этапе распознавания преобразуется в текст;
• табличный (Таблица) — представляет собой набор ячеек, каждая из которыхпреобразуется в текст по отдельности;
• изображение (Картинка) — включается в документ без изменений как графи-ческая иллюстрация, если формат сохранения преобразованного документа допускает вставные объекты.
Процесс распознавания текста после сегментации полностью автоматизирован.
Кнопка Распознать на панели Scan&Read позволяет автоматически выполнить сегментацию и распознавание, хотя в ходе сегментации учитываются ограничения,

494 Глава 17. Автоматизация обработки документов

установленные вручную. В ходе процесса отображается диалоговое окно Распознавание, позволяющее прервать процесс. Кроме того, в этом окне отображаются сообщения, указывающие на наличие проблем при распознавании. Проблемы обычно вызываются неверными настройками или плохим качеством распознаваемого изображения. Если же дело в каких-то шрифтовых особенностях распознаваемого документа, применяют
распознавание с обучением.