Структурные методы распознавания сложноорганизованных исторических табличных форм (стр. 3 из 3)

OCR-система осуществляет распознавание текстовой информации на изображении (основа метода распознавания рассмотрена в работе[19].

Табличный форматизатор выводит таблицу, структура которой определена структуризатором, в виде текстового файла, располагая распознанные OCR-системой символы в надлежащем порядке в соответствующих ячейках таблицы. Подсистема постобработки осуществляет контекстно- зависимую коррекцию символов (например, заменяет при необходимости строчные буквы на прописные в зависимости от расположения их в слове).

Рассмотрим более подробно работу табличного структуризатора. Эта подсистема последовательно выполняет следующие действия: 1)обнаружение и удаление линий на растре; 2)автономную обработку линий; 3)автономную обработку текста; 4)распознавание структуры таблиц; 5)анализ ячеек таблицы.

Процедура обнаружения линий обрабатывает растровое изображение листа документа и обнаруживает на нем отрезки прямых линий. Затем эти линии удаляются с растрового изображения, чтобы отделить их от изображений символов и обеспечить возможность автономной обработки линий и текста.

Процедура автономной обработки линий выполняет следующие действия: а)сращивание разрывов линий; б)оценивание и ликвидация перекоса; в)выделение кластеров соосных линий; г)определение типов линий. Процедура автономной обработки текста состоит в основном в контекстно-независимой фильтрации обрывков линий и фильтраци шумов на текстовом слое растра. Входными данными для процедуры распознавания табличной структуры являются: априорное описание структуры таблицы; набор отрезков горизонтальных и вертикальных линий, классифицированных по типам; информация о положении и размерах рамок текстовых компонент связности.

Эта процедура проверяет, соответствует ли структура обрабатываемого изображения априорному описанию, и в случае соответствия формирует иерархическую модель структуры таблицы. Для того, чтобы обеспечить устойчивое распознавание, эта процедура учитывает специфические особенности таблиц определенного типа. Основные действия, выполняемые этой процедурой:

идентификация горизонтальных линий, ограничивающих шапку;

глобальная контекстно-зависимая фильтрация линий;

идентификация вертикальных линий в соответствии с априорным описанием и проверка соответствия структуры таблицы этому описанию;

контекстно-зависимая фильтрация компонент (обрывков линий и шума);

построение вертикальной иерархии (структуры колонок);

оценивание горизонтальной иерархии.

Назначение процедуры анализа ячеек - структуризация текста внутри ячеек таблицы. Процедура выполняет следующие действия: выделение строк и слов, обнаружение знаков препинания, индексных выражений, дробей и многоточий внутри ячеек таблицы.

Заключение

Таким образом, в настоящей работе проведен обзор современных технологий автоматизированного ввода в компьютер сложноструктурированных печатных документов и сделан вывод о наличии определенной ограниченности средств структурного распознавания таблиц сложной формы.

Авторами предложена достаточно универсальная структурная модель связанных иерархий, пригодная для описания широкого класса текстовых документов, табличных форм и бланков. В работе описывается основанная на модели связанных иерархий методология распознавания табличных структур. Данная методология была положена в основу разработанного в рамках OCR-системы Cript универсального текстово-табличного структуризатора.

Приведенные в работе базовые алгоритмы структуризатора Cript могут найти применение во многих задачах автоматизированной обработки текстов и таблиц различной природы, что демонстрируется примерами структурного распознавания таблиц из различных исторических источников. Поэтому погружение OCR системы Cript в различные автоматизированные системы ввода и обработки исторических источников позволит повысить эффективность и степень автоматизации подобных систем. Гибкость и простота разработанного в рамках проекта Cript языка описания табличных форм существенно упростят процедуру настройки конечным пользователем OCR-системы на специфические особенности вводимых табличных структур.

Авторы выражают признательность А.В. Тюленеву и Л.И. Бородкину, благодаря которым во многом и состоялась данная статья.

Список литературы

1.OCR (Optical Character Recognition) - оптическое распознавание образов, Cript - одна из эффективных отечественных OCR-систем (Прим. ред.)

2.L. O'Gorman, "The document spectrum for page layout analysis", IEEE Journal on Pattern Analysis and Machine Intelligence, vol. 15, no. 11, p. 1162-1173 ,1993; M. Krishnamoorthy, G. Nagy, S. Seth, M. Viswanathan,"Syntactic segmentation and labelling of digitized pages from technical journals", IEEE Journal on Pattern Analysis and Machine Intelligence, vol.15, no.7, p.737-747, 1993; G. Nagy, S. Seth, M. Viswanathan, A prototype document image analysis system for technical journals, Computer, no.7, p.10-21, 1992.

3.L. O'Gorman, The document spectrum for page layout analysis, IEEE Journal on Pattern Analysis and Machine Intelligence, vol. 15, no. 11, p. 1162-1173 ,1993

4.H.S. Baird, K. Thompson, Reading Chess, Proc. of Workshop on ComputerVision, Washington, 1987.

5.V. Poulian d'Andecy, J. Camillerapp, I. Lemplumey, Kalman Filtering for Segment Detection: Application to Music Scores Analysis, Proc. IAPR 12-th Intern. Conf. on Pattern Recognition, Los Alamos,1994. - v.1.

6.M. Thaller. The Processing of Manuscripts, Images and Manuscripts in Historical Computing, Goettingen, 1992; T. Kruyt, J. van der Voort van der Kleij. Converting the Historical Dictionary of Dutch to Electronic Form, Optical Character Recognitionin The Historical Discipline., Goettingen, 1993; 22. L. Borodkin, V. Lazarev, E. Zlobin, Applications of OCR in Russian Historical Sources: a Comparison of various programs, Optical Character Recognition in The Historical Discipline, Goettingen, 1993.

7.V. Klyahzkin, E. Shchepin, K. Zingerman. Application of hierarchical methods of cluster analysis to the printedtext structure recognition, Shape, Structure, and Pattern Recognition, Dov Dori and Alfred Bruckstein, Eds. World Scientific, 1995; V. Klyahzkin, E. Shchepin, K. Zingerman. Hierarchical analysis of multi-column texts, Pattern Recognition and Image Analysis, Vol.5, No.1, 1995, Interperiodica,pp. 1-12; В.М. Кляцкин. Иерархический кластер- анализ многоколонных текстов, Одесса, 1994, Труды V Международной конференции (Статистический и дискретный анализ данных и экспертные оценки), Изд-во Одесского политехнического университета, стр. 132-134.

8.M. Krishnamoorthy, G. Nagy, S. Seth, M. Viswanathan, Syntactic segmentation and labelling of digitized pages from technical journals, IEEE Journal on Pattern Analysis and Machine Intelligence, vol.15, no.7, p.737-747, 1993

9.H.S. Baird, S.E. Jones, S.J. Fortune, Image Segmentation by Shape-Directed Covers, Proc. IAPR 10-th Intern. Conf. on Pattern Recognition, Atlantic City, 1990; H.S.Baird, Background Structure in Document Images, Proc. IAPR Workshop on Structural and Syntactic Pattern Recognition, Bern, 1992.

10.H.S. Baird, Background Structure in Document Images, Proc. IAPR Workshop on Structural and Syntactic Pattern Recognition, Bern, 1992.

11.H. Saiga, Y. Kitumura, S. Ida, "High-Speed Recognition of Tabulated Data", Proc. IAPR 12-th Intern. Conf. on Pattern Recognition, Los Alamos, 1994. - v.2.

12.J. F.Arias, A. Prasad, R. Kasturi, A.Chhabra, Interpretation of Telephone Company Central Office Equipment Drawings, Proc. IAPR 12-th Intern. Conf. on Pattern Recognition, Los Alamos, 1994. - v.2.

13.P. Wayner, Optimal Character Recognition , Byte, 1993, no. 12, p.203-210.

14.G. Thorvaldsen. Making Printed Historical Sources Machine Readable: Some Experiences with OCR, History and Computing, Vol.5 No 2,Edinburgh University Press, 1993.

15.G. Thorvaldsen. Historical OCR Projects in Norway, Optical Character Recognition in The Historical Discipline., Goettingen, 1993

16.G. Thorvaldsen. Making Printed Historical Sources Machine Readable: Some Experiences with OCR, History and Computing, Vol.5 No 2,Edinburgh University Press, 1993.

17.A. McVeigh. The Irish Database Project: A Case for OCR?, Optical Character Recognition in The Historical Discipline., Goettingen, 1993

18.M. Olsen. Scanning, Keyboarding and Data Verification: Factors in Selecting Data Collection Technologies, Optical Character Recognition in The Historical Discipline., Goettingen, 1993

19.E. Shchepin, G. Nepomnyashchii, Character recognition via critical points, International Journal of Imaging Systems and Technology, vol.3, pp.213-221, 1991

20.Материалы для географiи и статистики Россiи, собранные офицерами Генеральнаго штаба. Казанская губернiя. (составитель М. Лаптев) - Санкт-Петербург, Военная типография. - 1861.