Re[3]: Как распарсить PDF?

Здравствуйте, ДимДимыч, Вы писали:

ДД>Здравствуйте, garant, Вы писали:

G>>Только каким-нибудь ABBYY PDF Reader. Потому как PDF — это напечатанный
G>>текст. Нормально извлечь из него структуру документа не выйдет. Только
G>>распознавать...

ДД>Вообще-то PDF предусматривает наличие неотображаемого текстового слоя, чтобы можно было искать текст по документу, копировать в буфер и т.д. Другое дело, что этот слой необязательный.

Есть-то он почти всегда, но что в нем, сильно зависит от того, чем этот pdf генерировался. В этом текстовом слое часто отсутствуют пробелы, например, или вообще порядок слов не слева направо, а сверху вниз.

	От:	Fwiffo
	Дата:	05.02.11 13:14
	Оценка: