CS>>Можно что? Восстановить семантическую структуру исходного документа? Скажем некий word.doc был *напечатан* в PDF, а потом ты говоришь что можно из этого PDF внезапно восстановить редактируемый HTML?
A>Да, есть утилиты типа pdf2html.
Я не зря сказал "редактируемый HTML".
pdf2html генерирует *набор* документов. Один html для каждой страницы. Каждый такой HTML содержит набор absolute positioned divs.
Как это преполагается WYSIWYG редактирвать? А pagination и все с этим связанное?
И я еще молчу про то что PDF->HTML это всегда loosing conversion.
Еще как-то можно себе представить редактир типа google docs который хоть и работает в browser, но не использует HTML DOM для представления документа — набор все тех же absolute positioned divs. Но таких редакторов которые делают WYSIWYG редактирование paged documents я знаю всего три и все они самостоятельные монструозные web applications и никак не встраиваемые компоненты.
Встраиваемыми являются редакторы основаные на @contenteditable (fckeditor со товарищи), но они требуют именно HTML DOM для документа. Редактирвать в них что-нибудь из под выхлопа pdf2html, а тем более конвертирвать обратно в PDF... "Оставь надежду всяк сюда входящий".