Как распарсить PDF?

Имеется несколько десятков PDF-файлов, структура текста которых одинакова. Требуется извлечь текст и таблицы, сохранив структуру исходного документа для последующего размещения в БД.

Пробовали использовать конвертеры, какие встретились проблемы: таблицы не распознаются, заголовки имеют разные стили отдельных символов одного слова. В любом случае, с конвертерами вся эта работа производится вручную, что просто неприемлемо для большого числа документов большого объема. Хотелось бы хоть как-то автоматизировать этот процесс. Есть идеи?

	От:	K1llMan
	Дата:	03.02.11 15:19
	Оценка: