Получить значение из пдф файла
От: e.thrash  
Дата: 03.08.19 11:53
Оценка:
Есть куча пдф файлов. У всех в левом верхнем углу есть число.
Как можно получить это число — это айди документа?
Задача сохранить в базу пдф в привязке к этому айди
Re: Получить значение из пдф файла
От: wildwind Россия  
Дата: 03.08.19 12:40
Оценка: 1 (1) +2
Здравствуйте, e.thrash, Вы писали:

Вырезать угол с помощью ImageMagick, скормить Tesseract. AI не нужен.
Но лучше ставить штрихкод.
Re: Получить значение из пдф файла
От: rosencrantz США  
Дата: 03.08.19 14:53
Оценка:
Здравствуйте, e.thrash, Вы писали:

ET>Есть куча пдф файлов. У всех в левом верхнем углу есть число.

ET>Как можно получить это число — это айди документа?
ET>Задача сохранить в базу пдф в привязке к этому айди

Если PDF — текстовые, а не сканы, то вот например https://stackoverflow.com/questions/22898145/how-to-extract-text-and-text-coordinates-from-a-pdf-file/22898159
Re[2]: Получить значение из пдф файла
От: Erop Россия  
Дата: 12.08.19 15:53
Оценка:
Здравствуйте, wildwind, Вы писали:


W>Вырезать угол с помощью ImageMagick, скормить Tesseract. AI не нужен.

Чем вам Tesseract не AI?

W>Но лучше ставить штрихкод.


+100500! Но числа лучше читаются людьми, правда...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Re[2]: Получить значение из пдф файла
От: e.thrash  
Дата: 17.08.19 19:47
Оценка:
Здравствуйте, wildwind, Вы писали:

W>Здравствуйте, e.thrash, Вы писали:


W>Вырезать угол с помощью ImageMagick, скормить Tesseract. AI не нужен.


сделал так.
пдф конвертнул в jpg с помощью wand (внутри я так понял ImageMagick), jpg кропнул с помощью того же wand чтобы остался только прямоугольник с числом.
и потом на этот кропнутый джпег натравил тезеракт.
увы не то число выдал.
вместо 162896 выдал 62596.
очень сильно качество теряется при конверте из пдф в некропнутый еще джпег.
делаю так


  with Image(filename="C:\\need.pdf[0]") as img:
                img.save(filename="C:\\need.jpg")

        with Image(filename="C:\\need.jpg")  as crop:          
                crop.crop(0, 70, 140, 150)
                crop.save(filename="C:\\need_crop.jpg")


что можно придумать?

W>Но лучше ставить штрихкод.

кьюар есть, но качество скана не айс и проще на цифры завязаться
Re: Получить значение из пдф файла
От: vsb Казахстан  
Дата: 17.08.19 21:58
Оценка:
man pdftotext
Re[2]: Получить значение из пдф файла
От: e.thrash  
Дата: 18.08.19 10:11
Оценка:
Здравствуйте, vsb, Вы писали:

vsb>man pdftotext


он умеет кропать?
мне надо прямоугольник вырезать сначала, чтобы получить нужный текст
Re[2]: Получить значение из пдф файла
От: BrainSlug Израиль  
Дата: 12.11.19 13:46
Оценка:
Здравствуйте, vsb, Вы писали:

vsb>man pdftotext

он написал выше, что сканирует, как тут pdftotext поможет, внутри которого poppler, который тупо выдергивает текст и не умеет и не знает ничего про распознавание
.
Re[3]: Получить значение из пдф файла
От: BrainSlug Израиль  
Дата: 12.11.19 13:55
Оценка:
ET>
ET>  with Image(filename="C:\\need.pdf[0]") as img:
ET>                img.save(filename="C:\\need.jpg")

ET>        with Image(filename="C:\\need.jpg")  as crop:          
ET>                crop.crop(0, 70, 140, 150)
ET>                crop.save(filename="C:\\need_crop.jpg")
ET>


ET>что можно придумать?

есть пример изображения, не все конечно, а только с цифрами, которые нужно распознать
.
Re[3]: Получить значение из пдф файла
От: Буравчик Россия  
Дата: 12.11.19 14:17
Оценка:
Здравствуйте, e.thrash, Вы писали:

ET>очень сильно качество теряется при конверте из пдф в некропнутый еще джпег.

ET>что можно придумать?

1. Можно использовать png вместо jpg, чтобы не терять качество картинки.
2. Увеличить dpi при преобразовании pdf в картинку.

Библиотек не знаю. В питоне pdf2image, вроде все это умеет
Best regards, Буравчик
Re[3]: Получить значение из пдф файла
От: Kernan Ниоткуда https://rsdn.ru/forum/flame.politics/
Дата: 12.11.19 14:26
Оценка:
Здравствуйте, e.thrash, Вы писали:

ET>кьюар есть, но качество скана не айс и проще на цифры завязаться

Надо выставить максимальное качество когда в жпег сохраняешь, т.е. не делать сжатия. Уверен, такая опция есть.
Sic luceat lux!
Re[3]: Получить значение из пдф файла
От: vsb Казахстан  
Дата: 12.11.19 15:34
Оценка:
Здравствуйте, BrainSlug, Вы писали:

vsb>>man pdftotext

BS>он написал выше, что сканирует, как тут pdftotext поможет, внутри которого poppler, который тупо выдергивает текст и не умеет и не знает ничего про распознавание

Ну то, что он сканирует, не значит, что в PDF нет текста. Он же сам написал, что рендерит PDF в картинку и сканирует её. Усложнять себе задачу, конечно, все любят.
Отредактировано 12.11.2019 15:35 vsb . Предыдущая версия .
Re[4]: Получить значение из пдф файла
От: BrainSlug Израиль  
Дата: 12.11.19 15:42
Оценка:
vsb>Ну то, что он сканирует, не значит, что в PDF нет текста.
если он сканирует и упаковывает скан потом в pdf, это значит что конкретно в его pdf текста нет

vsb>Он же сам написал, что рендерит PDF в картинку и сканирует её. Усложнять себе задачу, конечно, все любят.

ну предложи решение ему получше. выше ему предложили, штрих код и прочее, на что он заметил что качество скана так себе
.
Re[4]: Получить значение из пдф файла
От: BrainSlug Израиль  
Дата: 12.11.19 15:45
Оценка:
BS>есть пример изображения, не все конечно, а только с цифрами, которые нужно распознать
короче можно еще с изображением поиграться, dpi попробовать увелить при скане, попробовать перевести в grayscale , и .т.п.
.
Re: Получить значение из пдф файла
От: Pzz Россия https://github.com/alexpevzner
Дата: 12.11.19 18:11
Оценка:
Здравствуйте, e.thrash, Вы писали:

ET>Есть куча пдф файлов. У всех в левом верхнем углу есть число.


Число в левом верхнем углу PDF-файла может быть как растровой картинкой, так и строкой цифр, которую PDF-рендерер отрисовывает неким фонтом. Во втором случае распознавание изображений вроде как и не требуется...
Re[4]: Получить значение из пдф файла
От: Pzz Россия https://github.com/alexpevzner
Дата: 12.11.19 18:12
Оценка: +2
Здравствуйте, Kernan, Вы писали:

ET>>кьюар есть, но качество скана не айс и проще на цифры завязаться

K>Надо выставить максимальное качество когда в жпег сохраняешь, т.е. не делать сжатия. Уверен, такая опция есть.

JPEG не бывает без потери качества. Формат такой.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.