Смекни!
smekni.com

Перечень сокращений, символов и специальных терминов 8 (стр. 2 из 15)

2) Распознавание символов текста — собственно OCR, включает в себя выделение характерных черт и классификацию образов

3) Распознавание слов текста — составление слов из распознанных символов

На каждом этапе для решения проблемы требуются разные средства, которые в совокупности образуют систему распознавания текста. В зависимости от специфики задачи (печатный или рукописный текст, язык текста и т.д.) разные средства применяются на разных этапах.

1.1 Понимание изображения документа

Большинство техник анализа изображения можно разделить на несколько групп, основываясь на используемых в них основных подходах:

1)Анализ проекционных профилей

2)Преобразование Хафа

3)Кластеризация связанных компонентов

4)Корелляция строк

5)Другие

Существуют также техники, основанные на градиентном анализе, анализе спектра Фурье, использовании морфологических преобразований и на обнаружении пустых строк.

Приведённые подходы применяются для определения угла наклона текста и декомпозиции страницы (деления страницы на регионы).

1.1.1 Анализ проекционных профилей

Этот подход отталкивается от предположения о том, что текст выстроен вдоль параллельных прямых линий. Принципиальная схема предполагает расчёт проекционного профиля по каждому углу наклона, определение функции премиума и выбор такого угла, который приводит её в оптимальное состояние. Подход требует относительно большое количество вычислительной мощности, поэтому было предложено несколько упрощённых вариантов, которые либо уменьшают время расчёта профилей, или оптимизируют стратегию поиска оптимума.

1.1.2 Преобразование Хафа

Эти техники основаны на наблюдении того, что текст отличается выравниванием символов, и что строки обычно параллельны друг другу. Для каждого чёрного пикселя

изображения находится соответствующая кривая в параметрическом пространстве
, пространстве Хафа, с помощью преобразования
. Угловое разрешение метода зависит от разрешения оси . Сложность — линейна относительно числа преобразовывающихся точек и требуемого углового разрешения.

Срихари (Srihari) и Говиндараю (Govindaraju) применяют эту технику к бинарному изображению участка документа, который гарантированно содержит лишь текст, и только под одним углом наклона. Каждый чёрный пиксель отображается в пространство Хафа, и наклон определяется как угол в параметрическом пространстве, дающий максимальную сумму квадратов градиента по .

Для ускорения расчётов был предложен ряд вариантов, в которых происходит меньшее число отображений. Это достигается либо ограничением области анализа, либо ограничением пикселей неким подмножеством представителей.

1.1.3 Кластеризация ближайших соседей

Методы этого класса нацелены на использование общего предположения о том, что символы в строке выровнены и расположены близко друг к другу. Они характеризуется обработкой снизу вверх, которая начинается с множества объектов, связанных компонентов или представляющих их точек, и используют их взаимные расстояния и пространственные отношения для оценки угла наклона.

1.1.4 Корреляция строк

Делая предположение о том, что повёрнутые текстовые регионы представляют собой гомогенную горизонтальную структуру, эти подходы нацелены на оценку наклона путём измерения вертикального отклонения в изображении.

Акияма (Akiyama) и Хагита (Hagita) описывают быстрый метод определения наклона: документ делится на несколько вертикальных полос одинаковой ширины. Вычисляются горизонтальные проекционные профили полос, а также сдвиги, дающие лучшую корреляцию одной проекции с последующей. Наклон определяется как обратный тангенс отношения среднего сдвига и ширины полосы.

1.1.5 Другие методы

Также существуют методы, основанные на градиентном направленном анализе, преобразовании Фурье, на открытых и закрытых морфологических преобразованиях, техники основанные на размытии, техники классификации блоков и другие.

1.2 Логический анализ разметки

Логический анализ состоит в охарактеризовании блоков изображения и определении их отношений в соответствии с некоей априори известной моделью. Техники логического анализа обычно используют стандартные (SGML, ODA) или широко распространённые (RTF, PostScript) форматы представления разметки.

Основными техниками логического анализа являются

· Трансформация дерева — формирует дерево, отражающее логическую и геометрическую структуру документа

· Язык описания — структура документа представляется в виде описания на специальном языке

· Областные техники — методы разделения проблемы структурирования на несколько под-проблем, каждую из которых решает специализированная процедура, вносящая свой вклад в общую область данных

· Синтаксический подход — определяет структуру документа при помощи формальных грамматик (обычно — контекстно-независимых).

· Скрытые марковские модели

· Обучение — методы обучения необходимы для адаптации систем к различным условиям работы (все другие техники анализа подразумевают наличие фиксированных параметров и не включают в себя обучение)

· Интерактивные системы — методы, основанные на комбинации автоматического определения разметки и интерактивных запросов к пользователю, которые производятся для разрешения неясных ситуаций

1.3 Оптическое распознавание символов

Л.Н. Ясницкий выделяет три основных класса методов распознавания символов[5]:

· Шаблонный метод — основан на сравнении изображения символа с имеющимся в памяти шаблоном. Требует сложных преобразований и вычислений для компенсации деформации символов.

· Структурный метод — символ представляется графом, узлами которого являются детали символа (прямые линии, участки окружностей), а дугами — пространственные отношения между ними. Использует методы теории графов.

· Признаковый метод — основан на выделении неких признаков изображения символа. Набор признаков представляет из себя n-мерный вектор, который сравнивается с эталонными векторами для определения класса символа

Если рассматривать проблему глубже[1], то она состоит из двух частей: выделение характерных черт их классификация. В шаблонном методе обе части объединены в одну, но в остальных они чётко разделены. Для решения обеих частей проблемы обычно применяются разные методы. Методы выделения характерных черт:

· Моменты — использует такие понятия как контур, центр масс, момент вращения. Используются геометрические моменты, моменты Цернике, моменты Лежандра, моменты Чебышева

· Гистограммы

· Направленные черты — использует геометрические преобразования для выделения в изображении штрихов, имеющих схожие углы наклона. Множество штрихов становится множеством характерных черт

· Преобразование Хафа

· Скелетизация — преобразование линий изображения в векторный скелет. Длины и относительные углы наклона векторов являются характерными чертами

· Дескрипторы Фурье — представление контура изображения в частотной области

· Аппроксимация — аналог скелетизации, но вместо векторов используются кривые или контуры

· Топологические черты — выделение концов линий, перекрестий, развилок.

· Линейные преобразования — метод главных компонент, линейный дискриминантный анализ

· Ядра — методы преобразования сложных нелинейных задач в низкоуровневые линейные задачи с помощью ядер отображений

Методы классификации символов:

· Статистические — основаны на теории вероятности

· Нейросетевые — используют нейросети различной топологии для классификации набора выделенных характерных черт

· Метод опорных векторов — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве

· Структурные — основаны на сравнении структуры изображения с шаблоном

· Смешанные — комбинация из нескольких методов

1.4 Применение нейронных сетей для оптического распознавания символов

Исходя из изложенного в предыдущем разделе, применение нейронных сетей при распознавании символов возможно только после решения задачи выделения характерных черт. После того, как черты выделены, их можно подать на вход нейронной сети и определить класс символа, характеризующегося этими чертами. Однако само определение того, какие именно черты следует искать, сколько их будет и в каком виде они будут подаваться на вход нейронной сети — задача нетривиальная. Так же нетривиальной является задача определения числа слоёв и числа нейронов в нейронной сети (для тех сетей, к которым эти понятия применимы). Поэтому применение большинства нейронных сетей для эффективного распознавания символов достаточно затруднительно.

1.4.1 Перцептрон

Перцептрон — математическая и компьютерная модель восприятия информации мозгом (кибернетическая модель мозга), предложенная Фрэнком Розенблаттом в 1957 году и реализованная в виде электронной машины «Марк-1» в 1960 году. Перцептрон стал одной из первых моделей нейросетей, а «Марк-1» — первым в мире нейрокомпьютером. Несмотря на свою простоту, перцептрон способен обучаться и решать довольно сложные задачи.

Перцептрон состоит из трёх типов элементов: поступающие от сенсоров сигналы передаются ассоциативным элементам, а затем реагирующим элементам. Таким образом, перцептроны позволяют создать набор «ассоциаций» между входными стимулами и необходимой реакцией на выходе. В биологическом плане это соответствует преобразованию, например, зрительной информации в физиологический ответ от двигательных нейронов. Согласно современной терминологии, перцептроны могут быть классифицированы как искусственные нейронные сети: