Есть PDF документ и шаблон описывающий структуру документа, необходимо найти в документе этот шаблон и извлечь описанные данные.
В документе обрабатываются не все объекты, а только текст, каждый элемент представляется из себя последовательность символов и прямоугольник описывающий положение элемента.
Шаблон представляет из себя набор сущностей : Пара ключ-значение, Таблица и Текст. Каждая из сущностей задается прямоугольниками координат в документе и попавшими в него элементами документа.
Результатом будет являться набор ассоциаций каждой сущности в шаблоне с соответствующим набором элементов из документа.
Сейчас эта задача выполняется императивным путем, основываясь на статистических данных кодируются правила распознавания документа. Но к сожалению такой подход сильно ограничен.
Внимание знатоки Пролога, вопрос: Можно ли использовать Пролог, для решения этой задачи и как это будет выглядеть?
Приложение доступно по
ссылке
Буду весьма признателен за любую информацию по этому поводу. Заранее благодарю.
Здравствуйте, Oleg Vladimirov, Вы писали:
OV>Приложение доступно по ссылке
Ладно приложение, (кстати, зачем оно ультимативно запросило мой гугловский аккаунт?), а хоть какой-нибудь пример документа и шаблона можно было привести?
Здравствуйте, Oleg Vladimirov, Вы писали:
OV>Сейчас эта задача выполняется императивным путем, основываясь на статистических данных кодируются правила распознавания документа. Но к сожалению такой подход сильно ограничен.
Скормил ему несколько разных пдф — и просто тексты, и таблички, — нажал на autodetect template, — ничего не произошло вообще.
OV>Приложение доступно по ссылке
Выглядит как реклама. Причём как реклама чего-то не шибко годного.