Использование Prolog для разбора PDF документа
От: Oleg Vladimirov Россия  
Дата: 29.03.13 13:00
Оценка:
Есть PDF документ и шаблон описывающий структуру документа, необходимо найти в документе этот шаблон и извлечь описанные данные.

В документе обрабатываются не все объекты, а только текст, каждый элемент представляется из себя последовательность символов и прямоугольник описывающий положение элемента.

Шаблон представляет из себя набор сущностей : Пара ключ-значение, Таблица и Текст. Каждая из сущностей задается прямоугольниками координат в документе и попавшими в него элементами документа.

Результатом будет являться набор ассоциаций каждой сущности в шаблоне с соответствующим набором элементов из документа.

Сейчас эта задача выполняется императивным путем, основываясь на статистических данных кодируются правила распознавания документа. Но к сожалению такой подход сильно ограничен.

Внимание знатоки Пролога, вопрос: Можно ли использовать Пролог, для решения этой задачи и как это будет выглядеть?

Приложение доступно по ссылке

Буду весьма признателен за любую информацию по этому поводу. Заранее благодарю.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.