Re[3]: Как распарсить PDF?
От: Fwiffo Россия  
Дата: 05.02.11 13:14
Оценка:
Здравствуйте, ДимДимыч, Вы писали:

ДД>Здравствуйте, garant, Вы писали:


G>>Только каким-нибудь ABBYY PDF Reader. Потому как PDF — это напечатанный

G>>текст. Нормально извлечь из него структуру документа не выйдет. Только
G>>распознавать...

ДД>Вообще-то PDF предусматривает наличие неотображаемого текстового слоя, чтобы можно было искать текст по документу, копировать в буфер и т.д. Другое дело, что этот слой необязательный.


Есть-то он почти всегда, но что в нем, сильно зависит от того, чем этот pdf генерировался. В этом текстовом слое часто отсутствуют пробелы, например, или вообще порядок слов не слева направо, а сверху вниз.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.