Здравствуйте, ybouts, Вы писали:
Y>Необходимо получить из pdf картинки, текст. Желательно, чтобы текст можно было получить с разбивкой по главам, колонкам. Y>Подскажите, какие есть библиотеки, чтобы сделать это.
Когда я работал с PDF, мне пришлось столкнуться с тем, что текст записывался в виде "координаты, строка". Причём строка это не обязательно слово, а просто последовательность букв идущих подряд. То есть кёрнинг там делается разбиеним слова на две строки и явным указанием координат. Было проблемой даже слова собрать, а не то что абзацы, колонки.
Работал с библиотекой PDFTron, правда с Си++ версией. В целом впечатления положительные, хотя ИМХО ребята нагловатые в плане саппорта. Посоветовать сменить комплятор — для них норма.