PDF parser library
От: Pzz Россия https://github.com/alexpevzner
Дата: 01.01.20 19:29
Оценка:
С Новым Годом, дорогие товарищи!

Скажите пожалуйста, есть ли в природе библиотечка, позволяющая парсить PDF файлы? Цель — повыдергать из них embedded images, и поскольку эти PDFки приходят со сканера, то я очень сомневаюсь, что в них есть что-либо, кроме этих картинок. Поэтому углубленное понимание встроенных фонтов, заполняемых таблиц, шифрования, яваскрипта и прочей PDFной премудрости не требуется, но библиотечка не должна падать от того, что ее накормили PDF-кой средней кривезны, и должна игнорировать все, что она не понимает, а не сходить от этого с ума.

Распаковка картинок тоже не требуется, мне бы их повыдергать, а распакую я уже сам.

Хотелось бы что-нибудь попроще, чем poppler, и лучше бы на C, чем на C++.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.