Re: разбор pdf
От: adontz Грузия http://adontz.wordpress.com/
Дата: 03.03.08 07:17
Оценка: 2 (1) +1
Здравствуйте, ybouts, Вы писали:

Y>Необходимо получить из pdf картинки, текст. Желательно, чтобы текст можно было получить с разбивкой по главам, колонкам.

Y>Подскажите, какие есть библиотеки, чтобы сделать это.

Когда я работал с PDF, мне пришлось столкнуться с тем, что текст записывался в виде "координаты, строка". Причём строка это не обязательно слово, а просто последовательность букв идущих подряд. То есть кёрнинг там делается разбиеним слова на две строки и явным указанием координат. Было проблемой даже слова собрать, а не то что абзацы, колонки.

Работал с библиотекой PDFTron, правда с Си++ версией. В целом впечатления положительные, хотя ИМХО ребята нагловатые в плане саппорта. Посоветовать сменить комплятор — для них норма.
A journey of a thousand miles must begin with a single step © Lau Tsu
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.