Автоматический поиск опорных элементов на документах полужесткой структуры

Автор: Ланин Михаил Олегович
Опубликовано: 09.10.2015
Версия текста: 1.0
Ведение
Модель структурного описания документов
Метод построения структурного описания по пользовательской разметке
Список литературы

Ведение

С все большим распространением распределенных информационных систем и систем электронного документооборота, набирают популярность и системы потокового ввода данных. На вход таких систем попадает большой массив документов различной природы, поэтому обработка всего объема данных вручную затруднительна, затратна по времени и практически невозможна. Построение эффективной системы потокового ввода документов связано с решением целого ряда задач, таких как распознавание текста, классификация изображений, маршрутизация и извлечение данных из документов.

В этой статье внимание уделено проблеме автоматического извлечения данных из изображений документов. Даже документы одного типа зачастую имеют полужесткую структуру, то есть расположение однотипных данных на них варьируется от одного экземпляра к другому. Использование трафаретных форм с явным указанием регионов извлекаемых данных и дальнейшим распознаванием текста методами оптического распознавания символов не позволяет корректно извлекать информацию из таких документов. Для извлечения информации из документов нежесткой логической и графической структуры, используется специализированная структурная модель документа [1], [2]. Большую трудность в использовании таких моделей представляет необходимость прямого указания геометрических отношений между элементами документа [3], [4], создания тематических словарей [2], [3], а так же ручного описания некоторых элементов структуры [2], [4]. Все это обусловливает высокие требования к квалификации создателей структурных описаний и большие временные затраты на создание эффективных описаний даже для документов простой структуры.

Для упрощения процесса создания структурных описаний документов используются методы машинного обучения. Показал свою эффективность метод автоматического построения структурного описания документа с использованием пользовательской разметки всех элементов[5]. Однако, этот подход хоть и значительно упрощает процесс создания структурных описаний, но не решает проблему в целом. От пользователя по-прежнему требуется вручную указывать набор статических элементов (подписи, заголовки и т.д.), с этим связаны определенные трудности. Во-первых, пользователь не всегда может хорошо определить, является ли строка «хорошим» опорным элементом (репером), надежно локализующим поле. Во-вторых, возникает ряд проблем, если предполагается, что процесс создания структурного описания может быть распределен по времени или пространству, так как набор размеченных реперных элементов должен совпадать для всех документов обучающей выборки. Следующим шагом в упрощении процесса создания структурного описания является автоматизация поиска опорных элементов документа на основе разметки извлекаемых данных (полей). Такой подход до минимума снижает требовательность к квалификации пользователя, поскольку требует лишь указания положения полей на изображении документа, а также позволяет внедрить систему обучения на этапе верификации извлекаемых данных и инкрементально улучшать структурное описание в процессе ввода.

В работе рассматривается подход к автоматическому поиску реперных элементов, для дальнейшего построения структурного описания в рамках модели, используемой в системе ABBYY FlexiCapture. Применимость предложенного метода была проверена на тестовом пакете из 622 реальных немецких счетов от 10 поставщиков. Метод показал свою эффективность, как часть процесса инкрементального обучения структурного описания в процессе ввода.

Модель структурного описания документов

Методы автоматического поиска опорных элементов рассматриваются в контексте модели структурного описания, используемой в системе потокового ввода ABBYY FlexiCapture. Структурное описание документа представляет собой дерево типизированных элементов, определяющих формат и содержимое некоторых частей документа. Всего доступно 18 типов элементов для различных типов данных, таких как статический текст, дата, денежная сумма, число, телефон, регулярное выражение и т.д. Для каждого из элементов задается набор свойств, определяющих как содержимое всего документа (обязательные и запрещенные элементы, минимальное и максимальное количество подэлементов в группе, количество повторений и т.д.), так и содержимое самих элементов (варианты текста, минимальное и максимальное значение, формат, количество символов, количество строк и т.д.). Кроме того для каждого элемента могут быть заданы ограничения области поиска – набор полуплоскостей, в которых элемент может быть найден. Ограничения области поиска могут быть заданы относительно границ изображения либо относительно расположения других, найденных ранее, элементов.

На основе заданных свойств и областей поиска определяется качество гипотезы того, что распознанное слово или множество слов является соответствующим элементом. Нарушение каждого из правил приводит к наложению определенного штрафа, размер которого зависит от степени нарушения и пользовательских настроек. В процессе анализа документа строится дерево гипотез – для каждой из гипотез расположения текущего элемента выдвигается множество гипотез расположения следующих элементов. Качество цепочки гипотез рассчитывается как произведение качеств каждой из гипотез этой цепочки. Результатом анализа является цепочка гипотез наилучшего качества, если качество такой цепочки превосходит предельное минимальное значение, в противном случае считается, что документ не соответствует заданному структурному описанию. В общем случае логика построения структурного описания заключается в определении статического «каркаса» документа и последующей локализации извлекаемых данных относительно его.

Метод построения структурного описания по пользовательской разметке

Подробное описание метода автоматического построения структурного описания документа по пользовательской разметке выходит за рамки этой статьи, однако для общего понимания кратко будет дано описание используемого алгоритма. Для задачи построения структурного описания не рассматривается проблема классификации документов, считается, что структурное описание создается для документов схожей структуры (счета выделенного поставщика, анкеты определенного клиента и т.д.). В случае, когда на вход поступают документы различной структуры, подразумевается использование внешнего классификатора и нескольких структурных описаний для каждого из типов обрабатываемых документов.

С учетом вышесказанных предположений и описанной ранее модели структурного описания, задача автоматического создания структурного описания по пользовательской разметке всех элементов сводится к двум подзадачам: определение типа и настройка свойств каждого из элементов и построение геометрических отношений между элементами. Набор свойств элемента зависит от его типа, и алгоритм их настройки не будет рассматриваться подробно. В общем случае, свойства задаются как наиболее строгие разумные ограничения, включающие все возможные варианты обучающей выборки.

Для построения геометрических ограничений области поиска, для каждого документа строится матрица отношений между элементами типа «выше-ниже» и «левее-правее», после чего результирующая матрица отношений получается как пересечение всего множества матриц. Отступы ограничений от границ элементов так же задаются, как наиболее строгие ограничения, включающие все возможные варианты взаимного расположения элементов на документах набора обучения.

Список литературы

  1. Зуев К.А. Система идентификации структуры печатных документов: дисс. канд. тех. наук. — М.: МГУЛ, 1999.
  2. Hamza H., Belaid A., Belaid Y., Chaudhuri B. An end-to-end administrative document analysis system. – Proceedings of the International Worksop on Document Analysis Systems – 2008 – p. 175–182.
  3. Ishitani Y. Model-based information extraction method tolerant of OCR errors for document images. – Proceedings of the International Conference on Document Analysis and Recognition – 2001 – p. 908–915.
  4. Peanho C., Stagni H., da Silva F. Semantic information extraction from scanned images of complex documents. – Applied Intelligence – December 2012 – vol. 37 – № 5 – p. 543–557.
  5. Голубев С.В. Распознавание структурированных документов с обучением на примерах – Труды 53-й научной конференции МФТИ, «Современные проблемы фундаментальных и прикладных наук» – 2011 – ч. IX – с. 88-89.


Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав.