Чем просмотреть структуру PDF?
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 30.08.22 04:54
Оценка:
PDF, создаваемые разными конторами, как правило, неадекватно велики — страница чистого текста с парой простеньких картинок легко может занимать мегабайт. Мне давно интересно, что туда суют такого объемного, но не могу найти софта, который показывает список всех объектов в файле. Пробовал разные редакторы, но все они работают по принципу визуального указания объекта, и не показывают размеров.

Чем можно подробно просмотреть структуру PDF? Хоть в GUI, хоть в stdout.
Re: Чем просмотреть структуру PDF?
От: vsb Казахстан  
Дата: 30.08.22 05:44
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>PDF, создаваемые разными конторами, как правило, неадекватно велики — страница чистого текста с парой простеньких картинок легко может занимать мегабайт. Мне давно интересно, что туда суют такого объемного, но не могу найти софта, который показывает список всех объектов в файле. Пробовал разные редакторы, но все они работают по принципу визуального указания объекта, и не показывают размеров.


Обычно картинки там и занимают всё место. Просто здоровые суют. Есть сайты, которые "распаковывают" pdf онлайн. Можно ими посмотреть, какие там картинки лежат.
Re: Чем просмотреть структуру PDF?
От: Буравчик Россия  
Дата: 30.08.22 05:45
Оценка: +1
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Чем можно подробно просмотреть структуру PDF? Хоть в GUI, хоть в stdout.


https://github.com/gdelugre/pdfwalker

Обычно картинки и внедренные шрифты много места занимают
Best regards, Буравчик
Re[2]: Чем просмотреть структуру PDF?
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 30.08.22 06:12
Оценка:
Здравствуйте, vsb, Вы писали:

vsb>Обычно картинки там и занимают всё место. Просто здоровые суют.


Это я как раз вижу. Но часто бывает, что видимые картинки небольшие, а файл все равно занимает сотни килобайт или мегабайты.

vsb>Есть сайты, которые "распаковывают" pdf онлайн.


По каким словам их искать?
Re[2]: Чем просмотреть структуру PDF?
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 30.08.22 06:17
Оценка:
Здравствуйте, Буравчик, Вы писали:

Б>https://github.com/gdelugre/pdfwalker


Я правильно понимаю, что оно исключительно под линукс? Если да, то под какие дистрибутивы? У меня есть в виртуалке старая убунта 10.4 — там нет gem.
Re[3]: Чем просмотреть структуру PDF?
От: vsb Казахстан  
Дата: 30.08.22 06:41
Оценка: -1
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>По каким словам их искать?


extract images from pdf, https://pdfcandy.com/extract-images.html к примеру
Re[4]: Чем просмотреть структуру PDF?
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 30.08.22 06:51
Оценка:
Здравствуйте, vsb, Вы писали:

vsb>extract images from pdf, https://pdfcandy.com/extract-images.html к примеру


Я ж подчеркнул, что в документах нет больших картинок. Соответственно, от подобных сервисов в обсуждаемой ситуации никакого толку.
Re[3]: Чем просмотреть структуру PDF?
От: Буравчик Россия  
Дата: 30.08.22 07:15
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Я правильно понимаю, что оно исключительно под линукс? Если да, то под какие дистрибутивы? У меня есть в виртуалке старая убунта 10.4 — там нет gem.


Вроде кросплатформено — оно на руби написано (хотя может там ниже библиотеки линуксовые).
Gem — это пакеты Ruby. Нужно установить менеджер пакето типа RubyGems.
Best regards, Буравчик
Re: Чем просмотреть структуру PDF?
От: migel  
Дата: 30.08.22 15:32
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>PDF, создаваемые разными конторами, как правило, неадекватно велики — страница чистого текста с парой простеньких картинок легко может занимать мегабайт. Мне давно интересно, что туда суют такого объемного, но не могу найти софта, который показывает список всех объектов в файле. Пробовал разные редакторы, но все они работают по принципу визуального указания объекта, и не показывают размеров.


ЕМ>Чем можно подробно просмотреть структуру PDF? Хоть в GUI, хоть в stdout.
Re[2]: Чем просмотреть структуру PDF?
От: migel  
Дата: 30.08.22 15:34
Оценка:
M>Здравствуйте, Евгений Музыченко, Вы писали:
ЕМ>>Чем можно подробно просмотреть структуру PDF? Хоть в GUI, хоть в stdout.
https://github.com/itext/i7j-rups
Re[3]: Чем просмотреть структуру PDF?
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 30.08.22 15:38
Оценка:
Здравствуйте, migel, Вы писали:

M>https://github.com/itext/i7j-rups


Пробовал. Выглядит навороченно, но размеров объектов там нигде не видно.
Re[4]: Чем просмотреть структуру PDF?
От: migel  
Дата: 30.08.22 17:22
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, migel, Вы писали:


M>>https://github.com/itext/i7j-rups


ЕМ>Пробовал. Выглядит навороченно, но размеров объектов там нигде не видно.

в основном все большое в пдф укатывается в потоки так что нужно смотреть его атрибуты Length.
Re[5]: Чем просмотреть структуру PDF?
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 31.08.22 01:35
Оценка: +1
Здравствуйте, migel, Вы писали:

M>в основном все большое в пдф укатывается в потоки так что нужно смотреть его атрибуты Length.


В теории так. А практически Вы пробовали это делать? Эта убогая тулза не умеет даже раскрыть сразу все ветки, не говоря уже о поиске объектов определенного типа — нужно ходить по дереву и тыкать вручную, а там сотни узлов даже в простейших файлах. Сразу видно, что разработчики никогда не пытались делать с ее помощью что-либо мало-мальски серьезное.
Re[6]: Чем просмотреть структуру PDF?
От: migel  
Дата: 31.08.22 05:29
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, migel, Вы писали:


M>>в основном все большое в пдф укатывается в потоки так что нужно смотреть его атрибуты Length.


ЕМ>В теории так. А практически Вы пробовали это делать? Эта убогая тулза не умеет даже раскрыть сразу все ветки, не говоря уже о поиске объектов определенного типа — нужно ходить по дереву и тыкать вручную, а там сотни узлов даже в простейших файлах. Сразу видно, что разработчики никогда не пытались делать с ее помощью что-либо мало-мальски серьезное.

Обычно хождение по Xref (вкладка справа) помогает — там и типы ссылок есть.
P.S в Акробате (не Reader) есть встроенное средство — Preflight View Internal structure
Re[7]: Чем просмотреть структуру PDF?
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 31.08.22 06:04
Оценка:
Здравствуйте, migel, Вы писали:

M>Обычно хождение по Xref (вкладка справа) помогает — там и типы ссылок есть.


Хм, а это нормально, что в XREF сперва почти все позиции — "Indirect object", и только после прохода меняются на конкретные типы?

Изображения из потоков оно достает, а как опознать все остальное — текст, оформление?

И как там увидеть, где на странице расположен конкретный элемент?
Re[8]: Чем просмотреть структуру PDF?
От: migel  
Дата: 31.08.22 14:12
Оценка: 12 (1)
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, migel, Вы писали:


M>>Обычно хождение по Xref (вкладка справа) помогает — там и типы ссылок есть.


ЕМ>Хм, а это нормально, что в XREF сперва почти все позиции — "Indirect object", и только после прохода меняются на конкретные типы?

Это нормально (тм) так как ссылки не типизированы то тип можно определить только прочитав объект.

ЕМ>Изображения из потоков оно достает, а как опознать все остальное — текст, оформление?


Для этого нужно знать PostScript like язык ПДФ — так как описывается программа стэковой машины отрисовки.
в краткости сначала идут аргументы а потом команда что с ними делать. Tj например рисует текст по заданным координатам.
В связи с тонкостями связки глифы шрифта — кодировка текста то сам текст увидеть глазками тоже вряд ли получиццо.

ЕМ>И как там увидеть, где на странице расположен конкретный элемент?

В каждой странице есть ссылка на ContentStream и уж его разбирать
Re[4]: Чем просмотреть структуру PDF?
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 02.09.22 04:30
Оценка:
Здравствуйте, Буравчик, Вы писали:

Б>Вроде кросплатформено — оно на руби написано (хотя может там ниже библиотеки линуксовые).


Попробовал поставить вместе с Ruby под винду — лезет множество ошибок по несуществующим версиям MinGW и других библиотек, бросил.

Вообще, насколько с помощью PdfWalker можно разобраться с тем, какие объекты в PDF-документе имеют наибольший объем, и как они выглядят, чтобы можно было их найти и удалить? Например, он информативнее RUPS?
Re: Чем просмотреть структуру PDF?
От: BlackEric http://black-eric.lj.ru
Дата: 08.12.22 16:40
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>PDF, создаваемые разными конторами, как правило, неадекватно велики — страница чистого текста с парой простеньких картинок легко может занимать мегабайт. Мне давно интересно, что туда суют такого объемного, но не могу найти софта, который показывает список всех объектов в файле. Пробовал разные редакторы, но все они работают по принципу визуального указания объекта, и не показывают размеров.


ЕМ>Чем можно подробно просмотреть структуру PDF? Хоть в GUI, хоть в stdout.


PDF Analyzer is an application which allows you to open and analyze PDF files
https://github.com/BlackEric001
Re[2]: Чем просмотреть структуру PDF?
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 08.12.22 19:50
Оценка:
Здравствуйте, BlackEric, Вы писали:

BE>PDF Analyzer is an application which allows you to open and analyze PDF files


Вы его пробовали? Я ему скормил пару файлов — он на обоих тихо упал.
Re[3]: Чем просмотреть структуру PDF?
От: Pzz Россия https://github.com/alexpevzner
Дата: 23.07.23 15:07
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Я правильно понимаю, что оно исключительно под линукс? Если да, то под какие дистрибутивы? У меня есть в виртуалке старая убунта 10.4 — там нет gem.


10.4 — это уж ну очень старая. Я б не стал тратить время на возню с ней, поставить новую будет быстрее.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.