Получить значение из пдф файла - Искусственный интеллект

Есть куча пдф файлов. У всех в левом верхнем углу есть число.
Как можно получить это число — это айди документа?
Задача сохранить в базу пдф в привязке к этому айди

Здравствуйте, e.thrash, Вы писали:

Вырезать угол с помощью ImageMagick, скормить Tesseract. AI не нужен.
Но лучше ставить штрихкод.

Здравствуйте, e.thrash, Вы писали:

ET>Есть куча пдф файлов. У всех в левом верхнем углу есть число.
ET>Как можно получить это число — это айди документа?
ET>Задача сохранить в базу пдф в привязке к этому айди

Если PDF — текстовые, а не сканы, то вот например https://stackoverflow.com/questions/22898145/how-to-extract-text-and-text-coordinates-from-a-pdf-file/22898159

Здравствуйте, wildwind, Вы писали:

W>Вырезать угол с помощью ImageMagick, скормить Tesseract. AI не нужен.
Чем вам Tesseract не AI?

W>Но лучше ставить штрихкод.

+100500! Но числа лучше читаются людьми, правда...

Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском

Здравствуйте, wildwind, Вы писали:

W>Здравствуйте, e.thrash, Вы писали:

W>Вырезать угол с помощью ImageMagick, скормить Tesseract. AI не нужен.

сделал так.
пдф конвертнул в jpg с помощью wand (внутри я так понял ImageMagick), jpg кропнул с помощью того же wand чтобы остался только прямоугольник с числом.
и потом на этот кропнутый джпег натравил тезеракт.
увы не то число выдал.
вместо 162896 выдал 62596.
очень сильно качество теряется при конверте из пдф в некропнутый еще джпег.
делаю так

  with Image(filename="C:\\need.pdf[0]") as img:
                img.save(filename="C:\\need.jpg")

        with Image(filename="C:\\need.jpg")  as crop:          
                crop.crop(0, 70, 140, 150)
                crop.save(filename="C:\\need_crop.jpg")

что можно придумать?

W>Но лучше ставить штрихкод.
кьюар есть, но качество скана не айс и проще на цифры завязаться

Здравствуйте, vsb, Вы писали:

vsb>man pdftotext

он умеет кропать?
мне надо прямоугольник вырезать сначала, чтобы получить нужный текст

Здравствуйте, vsb, Вы писали:

vsb>man pdftotext
он написал выше, что сканирует, как тут pdftotext поможет, внутри которого poppler, который тупо выдергивает текст и не умеет и не знает ничего про распознавание

ET>

ET>  with Image(filename="C:\\need.pdf[0]") as img:
ET>                img.save(filename="C:\\need.jpg")

ET>        with Image(filename="C:\\need.jpg")  as crop:          
ET>                crop.crop(0, 70, 140, 150)
ET>                crop.save(filename="C:\\need_crop.jpg")
ET>

ET>что можно придумать?
есть пример изображения, не все конечно, а только с цифрами, которые нужно распознать

Здравствуйте, e.thrash, Вы писали:

ET>очень сильно качество теряется при конверте из пдф в некропнутый еще джпег.
ET>что можно придумать?

1. Можно использовать png вместо jpg, чтобы не терять качество картинки.
2. Увеличить dpi при преобразовании pdf в картинку.

Библиотек не знаю. В питоне pdf2image, вроде все это умеет

Здравствуйте, e.thrash, Вы писали:

ET>кьюар есть, но качество скана не айс и проще на цифры завязаться
Надо выставить максимальное качество когда в жпег сохраняешь, т.е. не делать сжатия. Уверен, такая опция есть.

Здравствуйте, BrainSlug, Вы писали:

vsb>>man pdftotext
BS>он написал выше, что сканирует, как тут pdftotext поможет, внутри которого poppler, который тупо выдергивает текст и не умеет и не знает ничего про распознавание

Ну то, что он сканирует, не значит, что в PDF нет текста. Он же сам написал, что рендерит PDF в картинку и сканирует её. Усложнять себе задачу, конечно, все любят.

vsb>Ну то, что он сканирует, не значит, что в PDF нет текста.
если он сканирует и упаковывает скан потом в pdf, это значит что конкретно в его pdf текста нет

vsb>Он же сам написал, что рендерит PDF в картинку и сканирует её. Усложнять себе задачу, конечно, все любят.
ну предложи решение ему получше. выше ему предложили, штрих код и прочее, на что он заметил что качество скана так себе

BS>есть пример изображения, не все конечно, а только с цифрами, которые нужно распознать
короче можно еще с изображением поиграться, dpi попробовать увелить при скане, попробовать перевести в grayscale , и .т.п.

Здравствуйте, e.thrash, Вы писали:

ET>Есть куча пдф файлов. У всех в левом верхнем углу есть число.

Число в левом верхнем углу PDF-файла может быть как растровой картинкой, так и строкой цифр, которую PDF-рендерер отрисовывает неким фонтом. Во втором случае распознавание изображений вроде как и не требуется...

Здравствуйте, Kernan, Вы писали:

ET>>кьюар есть, но качество скана не айс и проще на цифры завязаться
K>Надо выставить максимальное качество когда в жпег сохраняешь, т.е. не делать сжатия. Уверен, такая опция есть.

JPEG не бывает без потери качества. Формат такой.

	От:	e.thrash
	Дата:	03.08.19 11:53
	Оценка:

	От:	wildwind
	Дата:	03.08.19 12:40
	Оценка:	1 (1) +2

	От:	rosencrantz
	Дата:	03.08.19 14:53
	Оценка:

	От:	Erop
	Дата:	12.08.19 15:53
	Оценка:

	От:	e.thrash
	Дата:	17.08.19 19:47
	Оценка:

	От:	Буравчик
	Дата:	12.11.19 14:17
	Оценка:

От:	Kernan	https://rsdn.ru/forum/flame.politics/
Дата:	12.11.19 14:26
Оценка:

От:	Pzz	https://github.com/alexpevzner
Дата:	12.11.19 18:11
Оценка: