Есть куча пдф файлов. У всех в левом верхнем углу есть число.
Как можно получить это число — это айди документа?
Задача сохранить в базу пдф в привязке к этому айди
Здравствуйте, e.thrash, Вы писали:
ET>Есть куча пдф файлов. У всех в левом верхнем углу есть число. ET>Как можно получить это число — это айди документа? ET>Задача сохранить в базу пдф в привязке к этому айди
W>Вырезать угол с помощью ImageMagick, скормить Tesseract. AI не нужен.
Чем вам Tesseract не AI?
W>Но лучше ставить штрихкод.
+100500! Но числа лучше читаются людьми, правда...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Здравствуйте, wildwind, Вы писали:
W>Здравствуйте, e.thrash, Вы писали:
W>Вырезать угол с помощью ImageMagick, скормить Tesseract. AI не нужен.
сделал так.
пдф конвертнул в jpg с помощью wand (внутри я так понял ImageMagick), jpg кропнул с помощью того же wand чтобы остался только прямоугольник с числом.
и потом на этот кропнутый джпег натравил тезеракт.
увы не то число выдал.
вместо 162896 выдал 62596.
очень сильно качество теряется при конверте из пдф в некропнутый еще джпег.
делаю так
with Image(filename="C:\\need.pdf[0]") as img:
img.save(filename="C:\\need.jpg")
with Image(filename="C:\\need.jpg") as crop:
crop.crop(0, 70, 140, 150)
crop.save(filename="C:\\need_crop.jpg")
что можно придумать?
W>Но лучше ставить штрихкод.
кьюар есть, но качество скана не айс и проще на цифры завязаться
Здравствуйте, vsb, Вы писали:
vsb>man pdftotext
он написал выше, что сканирует, как тут pdftotext поможет, внутри которого poppler, который тупо выдергивает текст и не умеет и не знает ничего про распознавание
ET> with Image(filename="C:\\need.pdf[0]") as img:
ET> img.save(filename="C:\\need.jpg")
ET> with Image(filename="C:\\need.jpg") as crop:
ET> crop.crop(0, 70, 140, 150)
ET> crop.save(filename="C:\\need_crop.jpg")
ET>
ET>что можно придумать?
есть пример изображения, не все конечно, а только с цифрами, которые нужно распознать
Здравствуйте, e.thrash, Вы писали:
ET>кьюар есть, но качество скана не айс и проще на цифры завязаться
Надо выставить максимальное качество когда в жпег сохраняешь, т.е. не делать сжатия. Уверен, такая опция есть.
Здравствуйте, BrainSlug, Вы писали:
vsb>>man pdftotext BS>он написал выше, что сканирует, как тут pdftotext поможет, внутри которого poppler, который тупо выдергивает текст и не умеет и не знает ничего про распознавание
Ну то, что он сканирует, не значит, что в PDF нет текста. Он же сам написал, что рендерит PDF в картинку и сканирует её. Усложнять себе задачу, конечно, все любят.
vsb>Ну то, что он сканирует, не значит, что в PDF нет текста.
если он сканирует и упаковывает скан потом в pdf, это значит что конкретно в его pdf текста нет
vsb>Он же сам написал, что рендерит PDF в картинку и сканирует её. Усложнять себе задачу, конечно, все любят.
ну предложи решение ему получше. выше ему предложили, штрих код и прочее, на что он заметил что качество скана так себе
BS>есть пример изображения, не все конечно, а только с цифрами, которые нужно распознать
короче можно еще с изображением поиграться, dpi попробовать увелить при скане, попробовать перевести в grayscale , и .т.п.
Здравствуйте, e.thrash, Вы писали:
ET>Есть куча пдф файлов. У всех в левом верхнем углу есть число.
Число в левом верхнем углу PDF-файла может быть как растровой картинкой, так и строкой цифр, которую PDF-рендерер отрисовывает неким фонтом. Во втором случае распознавание изображений вроде как и не требуется...
Здравствуйте, Kernan, Вы писали:
ET>>кьюар есть, но качество скана не айс и проще на цифры завязаться K>Надо выставить максимальное качество когда в жпег сохраняешь, т.е. не делать сжатия. Уверен, такая опция есть.