Распознавание документов
От: BlackEric http://black-eric.lj.ru
Дата: 06.02.23 17:50
Оценка:
Как распознавать скан извещений от Почты России. Там два вида таблиц и извещения для физ. лиц для физ. лиц. Это все сканируется и сканы подаются на вход в приложение.
Что лучше использовать? Качество сканов не очень. Важна скорость.
https://github.com/BlackEric001
Re: Распознавание документов
От: BlackEric http://black-eric.lj.ru
Дата: 09.02.23 14:44
Оценка:
Здравствуйте, BlackEric, Вы писали:

BE>Как распознавать скан извещений от Почты России. Там два вида таблиц и извещения для физ. лиц для физ. лиц. Это все сканируется и сканы подаются на вход в приложение.

BE>Что лучше использовать? Качество сканов не очень. Важна скорость.


Наверное можно переться на это статью — Как мы уместили распознавание 7 типов документов в одну модель, и что из этого вышло, но как-то очень сложно все получается.
https://github.com/BlackEric001
Re: Распознавание документов
От: Михаил Романов Удмуртия https://mihailromanov.wordpress.com/
Дата: 15.02.23 05:50
Оценка: +1
Здравствуйте, BlackEric, Вы писали:

Прошу прощения, только сейчас увидел ваш вопрос.
Тема еще актуальна или вы уже нашли решение?

BE>Что лучше использовать? Качество сканов не очень. Важна скорость.

А что именно вы хотите читать на бланках?
Если только штрих-коды, то решений море, например, из популярных https://github.com/zxing/zxing и куча его портов (там в списке есть) — на сколько помню, он умеет сам находить штрих на изображении.

Если нужно сам текст, то тут уже сложнее.
Во-первых, на сколько я знаю, приличных решений для распознавания рукописного текста так и нет.
Во-вторых, то решение, которое описывает Сбербанк, это по сути, аналог "гибких форм" (flexy forms) от ABBYY (или как они теперь в России называются Content AI, кажется).
Там тоже строится некая предварительная "полнотекстовая" модель распознанной страницы, а потом на основании этой информации + правил, которые вы описали заранее идет привязка конкретных полей, из которых зает уже извлекаются данные.

ABBYY здесь не единственные, кто такое делает, но, боюсь, все остальные только платные и не российские (решения от Cognitive — почили).
На сколько реально собрать такое "на коленке" — увы, не знаю.
Re: Распознавание документов
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 15.02.23 06:33
Оценка:
Здравствуйте, BlackEric, Вы писали:

BE>Как распознавать скан извещений от Почты России. Там два вида таблиц и извещения для физ. лиц для физ. лиц. Это все сканируется и сканы подаются на вход в приложение.

BE>Что лучше использовать? Качество сканов не очень. Важна скорость.

Кажется, что можно задетектить штрих код и на основании него хорошо выровнять документ и локализовать номер. Детекторов штрихкодов много. Для просто номера моделей, в том числе и штатных из OpenCV достаточно будет. По виду, скан хорошего качества, даже tesseract сработает неплохо, хотя он тут оверкилл.
Re[2]: Распознавание документов
От: BlackEric http://black-eric.lj.ru
Дата: 15.02.23 07:34
Оценка:
Здравствуйте, Михаил Романов, Вы писали:

МР>ABBYY здесь не единственные, кто такое делает, но, боюсь, все остальные только платные и не российские (решения от Cognitive — почили).

МР>На сколько реально собрать такое "на коленке" — увы, не знаю.

Спасибо. Пока будем пробовать с решениями от Abbyy, потом посмотрим.
https://github.com/BlackEric001
Re[2]: Распознавание документов
От: BlackEric http://black-eric.lj.ru
Дата: 15.02.23 07:35
Оценка:
Здравствуйте, Nuzhny, Вы писали:

N>Кажется, что можно задетектить штрих код и на основании него хорошо выровнять документ и локализовать номер. Детекторов штрихкодов много. Для просто номера моделей, в том числе и штатных из OpenCV достаточно будет. По виду, скан хорошего качества, даже tesseract сработает неплохо, хотя он тут оверкилл.


У заказчика в реальном скане все идет вперемешку. Нужно для начала понимать какой документ вообще на вход подали. Пока будем пробовать с софтом от Abbyy, потом посмотрим что из этого получится.
https://github.com/BlackEric001
Re[3]: Распознавание документов
От: Михаил Романов Удмуртия https://mihailromanov.wordpress.com/
Дата: 15.02.23 08:07
Оценка:
Здравствуйте, BlackEric, Вы писали:

BE>Спасибо. Пока будем пробовать с решениями от Abbyy, потом посмотрим.

Отлично.
Чтобы не перебирать — вам нужен https://contentai.ru/datacapture
Но сразу уточняйте стоимость и условия. Многих этот вопрос тормозил раньше, т.к. там была довольно суровая лицензионная политика (например, оплата по распознанным страницам, а за серверные решения — привязка к количеству процессоров). С тех давних пор, конечно, много что менялось, но уточните это еще на берегу.
Re[4]: Распознавание документов
От: BlackEric http://black-eric.lj.ru
Дата: 15.02.23 08:25
Оценка:
Здравствуйте, Михаил Романов, Вы писали:

МР>Отлично.

МР>Чтобы не перебирать — вам нужен https://contentai.ru/datacapture
МР>Но сразу уточняйте стоимость и условия. Многих этот вопрос тормозил раньше, т.к. там была довольно суровая лицензионная политика (например, оплата по распознанным страницам, а за серверные решения — привязка к количеству процессоров). С тех давних пор, конечно, много что менялось, но уточните это еще на берегу.

Пока склоняемся к FlexiCapture/Recognition Server.
https://github.com/BlackEric001
Re: Распознавание документов
От: Pavel Dvorkin Россия  
Дата: 06.03.23 14:04
Оценка:
Здравствуйте, BlackEric, Вы писали:

BE>Как распознавать скан извещений от Почты России. Там два вида таблиц и извещения для физ. лиц для физ. лиц. Это все сканируется и сканы подаются на вход в приложение.

BE>Что лучше использовать? Качество сканов не очень. Важна скорость.

В 2000-е годы участвовал в аналогичном проекте. Использовались в нем

https://www.parascript.com/
https://www.a2ia.com/en

Насколько с тех пор стали лучше распознавать — не знаю.
With best regards
Pavel Dvorkin
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.