Использование Prolog для разбора PDF документа
От: Oleg Vladimirov Россия  
Дата: 29.03.13 13:00
Оценка:
Есть PDF документ и шаблон описывающий структуру документа, необходимо найти в документе этот шаблон и извлечь описанные данные.

В документе обрабатываются не все объекты, а только текст, каждый элемент представляется из себя последовательность символов и прямоугольник описывающий положение элемента.

Шаблон представляет из себя набор сущностей : Пара ключ-значение, Таблица и Текст. Каждая из сущностей задается прямоугольниками координат в документе и попавшими в него элементами документа.

Результатом будет являться набор ассоциаций каждой сущности в шаблоне с соответствующим набором элементов из документа.

Сейчас эта задача выполняется императивным путем, основываясь на статистических данных кодируются правила распознавания документа. Но к сожалению такой подход сильно ограничен.

Внимание знатоки Пролога, вопрос: Можно ли использовать Пролог, для решения этой задачи и как это будет выглядеть?

Приложение доступно по ссылке

Буду весьма признателен за любую информацию по этому поводу. Заранее благодарю.
Re: Использование Prolog для разбора PDF документа
От: Кодт Россия  
Дата: 31.03.13 16:40
Оценка:
Здравствуйте, Oleg Vladimirov, Вы писали:

OV>Приложение доступно по ссылке


Ладно приложение, (кстати, зачем оно ультимативно запросило мой гугловский аккаунт?), а хоть какой-нибудь пример документа и шаблона можно было привести?
Перекуём баги на фичи!
Re: Использование Prolog для разбора PDF документа
От: Кодт Россия  
Дата: 31.03.13 16:47
Оценка:
Здравствуйте, Oleg Vladimirov, Вы писали:

OV>Сейчас эта задача выполняется императивным путем, основываясь на статистических данных кодируются правила распознавания документа. Но к сожалению такой подход сильно ограничен.


Скормил ему несколько разных пдф — и просто тексты, и таблички, — нажал на autodetect template, — ничего не произошло вообще.


OV>Приложение доступно по ссылке


Выглядит как реклама. Причём как реклама чего-то не шибко годного.
Перекуём баги на фичи!
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.