Есть PDF документ и шаблон описывающий структуру документа, необходимо найти в документе этот шаблон и извлечь описанные данные.
В документе обрабатываются не все объекты, а только текст, каждый элемент представляется из себя последовательность символов и прямоугольник описывающий положение элемента.
Шаблон представляет из себя набор сущностей : Пара ключ-значение, Таблица и Текст. Каждая из сущностей задается прямоугольниками координат в документе и попавшими в него элементами документа.
Результатом будет являться набор ассоциаций каждой сущности в шаблоне с соответствующим набором элементов из документа.
Сейчас эта задача выполняется императивным путем, основываясь на статистических данных кодируются правила распознавания документа. Но к сожалению такой подход сильно ограничен.
Внимание знатоки Пролога, вопрос: Можно ли использовать Пролог, для решения этой задачи и как это будет выглядеть?
Приложение доступно по
ссылке
Буду весьма признателен за любую информацию по этому поводу. Заранее благодарю.