Здравствуйте, ДимДимыч, Вы писали:
ДД>Здравствуйте, garant, Вы писали:
G>>Только каким-нибудь ABBYY PDF Reader. Потому как PDF — это напечатанный G>>текст. Нормально извлечь из него структуру документа не выйдет. Только G>>распознавать...
ДД>Вообще-то PDF предусматривает наличие неотображаемого текстового слоя, чтобы можно было искать текст по документу, копировать в буфер и т.д. Другое дело, что этот слой необязательный.
Есть-то он почти всегда, но что в нем, сильно зависит от того, чем этот pdf генерировался. В этом текстовом слое часто отсутствуют пробелы, например, или вообще порядок слов не слева направо, а сверху вниз.