Сканирование – это техническая операция, которую выполняет сканирующее устройство. Задача программы FineReader на этом этапе состоит в том, чтобы принять полученную информацию и отобразить значки отсканированных страниц на панели «Пакет». Так страницы готовятся к распознаванию.
Для того чтобы провести сканирование при помощи программы FineReader, необходимо запустить эту программу и включить сканер. Сканирование страницы производится по щелчку на кнопке «Сканировать» на панели инструментов «Scan&Read» или при нажатии комбинации клавиш CTRL+K.
Программа способна работать со сканером как непосредственно, так и через протокол TWAIN. При непосредственном взаимодействии со сканером возможность сканирования цветных изображений не используется, так как предполагается, что текст в любом случае является одноцветным.
Программа использует для сканирования устройство, которое задано по умолчанию. Для того чтобы выбрать такое устройство или изменить его настройку, надо щелкнуть на раскрывающей кнопке рядом с кнопкой «Сканировать» и выбрать в открывшемся меню пункт «Опции» – откроется диалоговое окно «Опции».
Если к компьютеру подключено несколько сканеров или сканер был подключен после установки программы FineReader, следует щелкнуть на кнопке «Выбрать сканер». В этом случае программа проведет поиск подключенных к компьютеру сканеров и позволит выбрать нужный.
Для изменения настроек сканера используют кнопку «Настройки сканера».
Когда сканер выбран, активизируются два флажка в нижней части диалогового окна. Если установить флажок «Показывать диалог TWAIN-драйвера сканера», то сканирование производится через протокол TWAIN с отображением специального диалогового окна. В противном случае программа работает со сканером напрямую. Использовать протокол TWAIN имеет смысл только в том случае, когда работа напрямую невозможна или дает некачественные результаты.
Флажок «Показывать опции перед началом сканирования» применяют только в том случае, когда бумажные страницы документа существенно отличаются друг от друга. Это может быть вызвано, например, свойствами бумаги или тем, что разные страницы печатались в разное время и разными средствами. В этом случае перед сканированием каждой страницы открывается диалоговое окно настройки сканера, чтобы пользователь мог отрегулировать качество процесса.
Сам процесс сканирования происходит в автоматическом режиме. Если требуется обработать много страниц, то лучше всего сначала все их отсканировать, а уже затем приступать к распознаванию. Это связано с тем, что сканирование требует присутствия пользователя из-за необходимости управления сканером (например, для смены страниц), а распознавание может происходить в автоматическом режиме.
Под естественным порядком распознавания текста понимается последовательное распознавание строк слева направо. Однако, если текст разбит на несколько колонок (столбцов) или содержит врезки, подрисуночные подписи, примечания, таблицы и другие элементы форматирования, его распознавание в естественном порядке невозможно. В таких случаях программа разбивает текст на блоки, каждый из которых представляет собой цельный фрагмент текста, распознаваемый в естественном порядке. Такое разбиение документа называется сегментацией.
Автоматическая сегментация – не простая задача для программы. Программа разыскивает промежутки между строками, а также зоны начала и конца строк. Если последовательность строк, идущих подряд, имеет одинаковые зоны начала и конца, то программа рассматривает такую область как текстовый блок.
Если промежутки между строками вообще отсутствуют, то, по всей видимости, речь идет об иллюстрации. Если обнаруживается большое число вертикальных и горизонтальных фрагментов, образующих правильную структуру, то, вероятно, в текст включена таблица.
Если щелкнуть на кнопке «Сегментировать выделенные страницы», то сегментация страницы производится автоматически. Правда, если изображение документа имеет невысокое качество, то сегментация может быть произведена неудачно, что проявится в избыточном количестве слишком мелких блоков.
В таких случаях можно вручную указать границы блоков или изменить автоматическое разбиение. Новые прямоугольные блоки создают методом протягивания мыши. При протягивании создаваемый блок выделяется пунктирной рамкой, которая в момент создания блока превращается в сплошную зеленую линию.
Если страница имеет простой стандартный вид, то проще вручную создать одиночный блок, охватывающий всю страницу, чем предоставить это программе, рискуя возможностью появления ошибок.
Один из созданных блоков всегда является текущим. Он обведен более жирной линией, а его вершины помечены маркерами. Перетаскиванием этих маркеров можно регулировать границы блока.
Для создания блока непрямоугольной формы или изменения последовательности блоков используют кнопки панели инструментов «Инструменты». Все кнопки этой панели используются именно на этапе сегментации.
Программа FineReader различает несколько типов блоков, которые обрабатываются по-разному. Такие блоки выделяются разными цветами. Текстовые блоки обводятся зеленой линией. Чтобы изменить тип блока, следует щелкнуть в пределах блока правой кнопкой мыши и выбрать нужный тип в меню «Тип блока контекстного меню».
После сегментации и установления порядка следования текстовых блоков выполняют последний этап работы – собственно распознавание. Обычно этот этап проходит автоматически.
Если документ напечатан достаточно стандартным шрифтом, который, к тому же, был хорошо воспроизведен при сканировании, то щелчка на кнопке «Распознать открытую страницу» достаточно, чтобы документ был распознан.Если бумажный документ имеет недостаточную контрастность или необычный шрифт, процедура несколько усложняется. В этом случае программа может не справляться с распознаванием определенных символов и допускать однотипные ошибки.
В таких случаях для больших документов целесообразно сначала провести обучение программы в соответствии с особенностями данного документа. Это достаточно трудоемкий процесс, но он все же проще, чем ручной ввод многостраничного документа.
Настройку распознавания начинают с создания эталона, в котором сохраняются особенности данного документа. Для этого надо дать команду «Сервис®Редактор эталонов», щелкнуть в открывшемся диалоговом окне «Эталоны» на кнопке «Новый эталон» и ввести имя создаваемого эталона.
Для подключения эталона при распознавании, надо щелкнуть на раскрывающей кнопке рядом с кнопкой «Распознать открытую страницу» и выбрать пункт «Опции». В открывшемся диалоговом окне в группе «Обучение» следует выбрать только что созданный эталон. Если предполагается распознавание документа, соответствующего эталону, который был создан и настроен ранее, то выбирается не новый, а старый эталон.
Для «обучения» эталона следует установить флажок «Распознавание с обучением».
Режим распознавания в этом случае несколько изменяется. Всякий раз, когда программа не может уверенно распознать символ, она выдает диалоговое окно «Ручное обучение эталона». В верхней части этого диалогового окна приводится увеличенное изображение текущей распознаваемой строки. Текущий символ заключен в рамку.
В поле со списком «Символ» приведен символ, который, как полагает программа, находится в рамке.
Необходимо убедиться, что символ в поле указан верно и заменить его в случае необходимости. После этого надо щелкнуть на кнопке «Обучить».
Если неверно указаны границы символа, то кнопки «Сдвинуть влево» и «Сдвинуть вправо» позволяют поправить положение рамки.
Если верно расположить рамку не удается или в тексте встретился редкий символ, который правильно интерпретировать нельзя, следует щелкнуть на кнопке «Пропустить».
2.6. Особенности настройки программы FineReader
Как и большинство других приложений Windows, программу FineReader можно настроить в соответствии с требованиями конкретного пользователя. Все настройки осуществляются при помощи диалогового окна «Опции», которое открывают с помощью любой раскрывающей стрелки на панели инструментов «Scan&Read» или через меню «Сервис». Если использована панель инструментов, то диалоговое окно открывается на вкладке, соответствующей использованной кнопке панели инструментов.
Вкладка «Сканирование» служит для выбора и настройки сканера, а также для определения способа доступа к нему.
Вкладка «Сегментация» позволяет настраивать некоторые параметры для автоматической сегментации. Здесь задают параметры автоматического разбиения таблиц и настраивают режим автоматической сегментации многоколоночного текста.
Средства вкладки «Форматирование» позволяют задать способ форматирования распознанной страницы и выбрать используемые шрифты.
Вкладка «Распознавание» определяет параметры распознавания документа. Она позволяет задать язык документа и особенности исходного шрифта, а также настроить режим распознавания с обучением. Здесь же задается метод цветового выделения ненадежно распознанных символов.
Элементами управления вкладки «Проверка» задают метод проверки орфографии и способ пометки обнаруженных ошибок или сомнительных мест.
Вкладка «Установки» определяет общие настройки программы. Здесь задают язык интерфейса и настраивают используемые единицы измерения.