Как распознавать скан извещений от Почты России. Там два вида таблиц и извещения для физ. лиц для физ. лиц. Это все сканируется и сканы подаются на вход в приложение.
Что лучше использовать? Качество сканов не очень. Важна скорость.
Здравствуйте, BlackEric, Вы писали:
BE>Как распознавать скан извещений от Почты России. Там два вида таблиц и извещения для физ. лиц для физ. лиц. Это все сканируется и сканы подаются на вход в приложение. BE>Что лучше использовать? Качество сканов не очень. Важна скорость.
Прошу прощения, только сейчас увидел ваш вопрос.
Тема еще актуальна или вы уже нашли решение?
BE>Что лучше использовать? Качество сканов не очень. Важна скорость.
А что именно вы хотите читать на бланках?
Если только штрих-коды, то решений море, например, из популярных https://github.com/zxing/zxing и куча его портов (там в списке есть) — на сколько помню, он умеет сам находить штрих на изображении.
Если нужно сам текст, то тут уже сложнее.
Во-первых, на сколько я знаю, приличных решений для распознавания рукописного текста так и нет.
Во-вторых, то решение, которое описывает Сбербанк, это по сути, аналог "гибких форм" (flexy forms) от ABBYY (или как они теперь в России называются Content AI, кажется).
Там тоже строится некая предварительная "полнотекстовая" модель распознанной страницы, а потом на основании этой информации + правил, которые вы описали заранее идет привязка конкретных полей, из которых зает уже извлекаются данные.
ABBYY здесь не единственные, кто такое делает, но, боюсь, все остальные только платные и не российские (решения от Cognitive — почили).
На сколько реально собрать такое "на коленке" — увы, не знаю.
Здравствуйте, BlackEric, Вы писали:
BE>Как распознавать скан извещений от Почты России. Там два вида таблиц и извещения для физ. лиц для физ. лиц. Это все сканируется и сканы подаются на вход в приложение. BE>Что лучше использовать? Качество сканов не очень. Важна скорость.
Кажется, что можно задетектить штрих код и на основании него хорошо выровнять документ и локализовать номер. Детекторов штрихкодов много. Для просто номера моделей, в том числе и штатных из OpenCV достаточно будет. По виду, скан хорошего качества, даже tesseract сработает неплохо, хотя он тут оверкилл.
Здравствуйте, Михаил Романов, Вы писали:
МР>ABBYY здесь не единственные, кто такое делает, но, боюсь, все остальные только платные и не российские (решения от Cognitive — почили). МР>На сколько реально собрать такое "на коленке" — увы, не знаю.
Спасибо. Пока будем пробовать с решениями от Abbyy, потом посмотрим.
Здравствуйте, Nuzhny, Вы писали:
N>Кажется, что можно задетектить штрих код и на основании него хорошо выровнять документ и локализовать номер. Детекторов штрихкодов много. Для просто номера моделей, в том числе и штатных из OpenCV достаточно будет. По виду, скан хорошего качества, даже tesseract сработает неплохо, хотя он тут оверкилл.
У заказчика в реальном скане все идет вперемешку. Нужно для начала понимать какой документ вообще на вход подали. Пока будем пробовать с софтом от Abbyy, потом посмотрим что из этого получится.
Здравствуйте, BlackEric, Вы писали:
BE>Спасибо. Пока будем пробовать с решениями от Abbyy, потом посмотрим.
Отлично.
Чтобы не перебирать — вам нужен https://contentai.ru/datacapture
Но сразу уточняйте стоимость и условия. Многих этот вопрос тормозил раньше, т.к. там была довольно суровая лицензионная политика (например, оплата по распознанным страницам, а за серверные решения — привязка к количеству процессоров). С тех давних пор, конечно, много что менялось, но уточните это еще на берегу.
Здравствуйте, Михаил Романов, Вы писали:
МР>Отлично. МР>Чтобы не перебирать — вам нужен https://contentai.ru/datacapture МР>Но сразу уточняйте стоимость и условия. Многих этот вопрос тормозил раньше, т.к. там была довольно суровая лицензионная политика (например, оплата по распознанным страницам, а за серверные решения — привязка к количеству процессоров). С тех давних пор, конечно, много что менялось, но уточните это еще на берегу.
Пока склоняемся к FlexiCapture/Recognition Server.
Здравствуйте, BlackEric, Вы писали:
BE>Как распознавать скан извещений от Почты России. Там два вида таблиц и извещения для физ. лиц для физ. лиц. Это все сканируется и сканы подаются на вход в приложение. BE>Что лучше использовать? Качество сканов не очень. Важна скорость.
В 2000-е годы участвовал в аналогичном проекте. Использовались в нем