Информация об изменениях

Сообщение Re[3]: Кто чем делает/редактирует официальные документы в PD от 01.06.2020 2:35

Изменено 01.06.2020 2:54 NWP

Re[3]: Кто чем делает/редактирует официальные документы в PDF?
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>А подскажите, пожалуйста, имеет ли смысл подбирать именно редактор? Возможно, существуют конверторы в HTML/DOC/RTF, аккуратно сохраняющие вид документа (вплоть до колонтитулов, номеров страниц и прочей мелочи), чтобы можно было исправить в более традиционном редакторе, и затем преобразовать обратно?


Вообще PDF это объектный формат, где всякая сущность это объект с атрибутами в стиле GDI+
Например слово ТЕСТ в документе может быть одним объектом, который имеет координаты и размер. А может быть и 4 объекта 'T', 'E' 'C' 'T' со своими координатами и прочими атрибутами. Такая ситуация кстати встречается очень во многих документах, особенно экспортированных их других систем и форматов. Кроме того, даже это может быть хоть и один объект, но заданный в таком формате (1,10)Т(20,10)Е(30,10)С(40,10)Т — и у этого объекта может быть координата, указывающая на одну область страницы, а буквы располагаются совсем в другой части страницы (задано смещением в скобках). А может быть и так, что объект содержит буквы в порядке "ТСТЕ", а отображается правильно — "ТЕСТ" — опять же из-за смещений.
Часто встречается ситуация, когда объекты пересекаются, наползают друг на друга, находятся не в последовательном порядке. Например в начале контента страницы мы имеем объект "TЕ", потом какие-то другие (картинки, паттерны, другой текст) и где-то в середине этой каши — окончание слова "СТ". А еще на все это дела накладываются матрицы преобразования (смещение, масштабирование поворот). А еще в документ может быть вшит JavaScript который меняет контент при отображении. А еще есть функции PostScrit которые так же могут каким-то образом надругатсья над контентом.

Короче я это к чему. Преобразование такого формата к формату Flow Text (типа как в ворде) это та еще задачка.
Такие конвертеры наверное есть, но я не уверен, что они всегда и везде будут давать хороший результат. Классический же редактор PDF работает в терминах именно объектов этого формата. И если в такой редактор загрузить такой "кривой" документ, то его редактирование будет боль — подозреваю именно в этой связи тебе ни один редактор и не зашел.

В общем вывод такой — если ты хочешь редактирование в стиле Word (FlowText) ищи конвертер. Конкретную прогу посоветовать не смогу. Но, пожалуй, не стоит искать конвертер в HTML, скорее всего такой конвертер сгенерит такой же ужасный HTML как и исходный PDF. Редактировать такой HTML будет геморно. Попробуй поискать конвертер в word — но скорее всего "потери" в контенте все равно будут.

Ну а меньше всего проблем при редактировании доставит только редактор от Adobe, но и там их будет куча Но зависит конечно же от стиля редактирования и от исходного документа.
Re[3]: Кто чем делает/редактирует официальные документы в PD
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>А подскажите, пожалуйста, имеет ли смысл подбирать именно редактор? Возможно, существуют конверторы в HTML/DOC/RTF, аккуратно сохраняющие вид документа (вплоть до колонтитулов, номеров страниц и прочей мелочи), чтобы можно было исправить в более традиционном редакторе, и затем преобразовать обратно?


Вообще PDF это объектный формат, где всякая сущность это объект с атрибутами в стиле GDI+
Например слово ТЕСТ в документе может быть одним объектом, который имеет координаты и размер. А может быть и 4 объекта 'T', 'E' 'C' 'T' со своими координатами и прочими атрибутами. Такая ситуация кстати встречается очень во многих документах, особенно экспортированных их других систем и форматов. Кроме того, это слово может быть задано хоть и одним объектом, но в таком формате (1,10)Т(20,10)Е(30,10)С(40,10)Т — и у этого объекта может быть координата, указывающая на одну область страницы, а буквы располагаются совсем в другой части страницы (задано смещением в скобках). А может быть и так, что объект содержит буквы в порядке "ТСТЕ", а отображается правильно — "ТЕСТ" — опять же из-за смещений.
Часто встречается ситуация, когда объекты пересекаются, наползают друг на друга, находятся не в последовательном порядке. Например в начале контента страницы мы имеем объект "TЕ", потом какие-то другие (картинки, паттерны, другой текст) и где-то в середине этой каши окончание слова — "СТ". А еще на все это дела накладываются матрицы преобразования (смещение, масштабирование поворот). А еще в документ может быть вшит JavaScript который меняет контент при отображении. А еще есть функции PostScrit которые так же могут каким-то образом надругатсья над контентом.

Короче я это к чему. Преобразование такого формата к формату Flow Text (типа как в ворде) это та еще задачка.
Такие конвертеры наверное есть, но я не уверен, что они всегда и везде будут давать хороший результат. Классический же редактор PDF работает в терминах именно объектов этого формата. И если в такой редактор загрузить такой "кривой" документ, то его редактирование будет боль — подозреваю именно в этой связи тебе ни один редактор и не зашел.

В общем вывод такой — если ты хочешь редактирование в стиле Word (FlowText) ищи конвертер. Конкретную прогу посоветовать не смогу. Но, пожалуй, не стоит искать конвертер в HTML, скорее всего такой конвертер сгенерит такой же ужасный HTML как и исходный PDF. Редактировать такой HTML будет геморно. Попробуй поискать конвертер в word — но скорее всего "потери" в контенте все равно будут.

Ну а меньше всего проблем при редактировании доставит только редактор от Adobe, но и там их будет куча Но зависит конечно же от стиля редактирования и от исходного документа.