Как распарсить PDF?
От: K1llMan  
Дата: 03.02.11 15:19
Оценка:
Имеется несколько десятков PDF-файлов, структура текста которых одинакова. Требуется извлечь текст и таблицы, сохранив структуру исходного документа для последующего размещения в БД.

Пробовали использовать конвертеры, какие встретились проблемы: таблицы не распознаются, заголовки имеют разные стили отдельных символов одного слова. В любом случае, с конвертерами вся эта работа производится вручную, что просто неприемлемо для большого числа документов большого объема. Хотелось бы хоть как-то автоматизировать этот процесс. Есть идеи?
pdf конвертеры парсинг
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.