OCR на сервере
От: Кондраций Россия  
Дата: 03.07.19 16:21
Оценка:
Есть проект на ASP.NET, хостинг виндовый на предприятии.
Нужно на сервер загружать картинки, на которых может быть текст. Текст нужно распознавать.

Попробовал использовать IronOcr — что-то не понравилось, не очень хорошо распознаёт и есть подозрение, что именно он память жрёт, не смотря на то, что вроде как на .NET написан.

Хочу попробовать Tesseract. Эта либа написана на C или C++, соответственно хостить её в процессе сервера ссыкотно в силу потенциальных утечек памяти. Есть вариант запускать его на сервере как exe, скармливая и получая данные через файлы.
Что скажете за этот подход?
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!
Re: OCR на сервере
От: Stalker. Австралия  
Дата: 04.07.19 06:48
Оценка:
Здравствуйте, Кондраций, Вы писали:

К>Есть проект на ASP.NET, хостинг виндовый на предприятии.

К>Нужно на сервер загружать картинки, на которых может быть текст. Текст нужно распознавать.

сейчас популярны облачные OCR, у гугла, амазона и многих других есть, в том числе и бесплатные, куда лучше чем заморачиваться с собственным сервером
Re[2]: OCR на сервере
От: Кондраций Россия  
Дата: 04.07.19 09:35
Оценка:
Здравствуйте, Stalker., Вы писали:

...
S>сейчас популярны облачные OCR, у гугла, амазона и многих других есть, в том числе и бесплатные, куда лучше чем заморачиваться с собственным сервером
Ничего облачного, ничего внешнего. Периметр в наличии
И описанное — часть другой задачи, и не что-то самодостаточное.
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!
Отредактировано 04.07.2019 9:36 Кондраций . Предыдущая версия .
Re: OCR на сервере
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 04.07.19 10:36
Оценка: +1
Здравствуйте, Кондраций, Вы писали:

К>Хочу попробовать Tesseract. Эта либа написана на C или C++, соответственно хостить её в процессе сервера ссыкотно в силу потенциальных утечек памяти. Есть вариант запускать его на сервере как exe, скармливая и получая данные через файлы.

К>Что скажете за этот подход?

Подход нормальный, но tesseract штука капризная. Его под каждую задачу приходится настраивать, раньше во всяком случае. Сомневаюсь, что он научился хорошо работать из коробки.
Re[2]: OCR на сервере
От: Кондраций Россия  
Дата: 04.07.19 12:12
Оценка:
Здравствуйте, Nuzhny, Вы писали:

...

N>Подход нормальный, но tesseract штука капризная. Его под каждую задачу приходится настраивать, раньше во всяком случае. Сомневаюсь, что он научился хорошо работать из коробки.


Спасиб.
Попробуем, другого варианта всё равно пока нет. Всё остальное, что встречалось, в том числе платное, имело признаки наличия тессеракта внутри.
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!
Re[3]: OCR на сервере
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 04.07.19 12:19
Оценка:
Здравствуйте, Кондраций, Вы писали:

К>Спасиб.

К>Попробуем, другого варианта всё равно пока нет. Всё остальное, что встречалось, в том числе платное, имело признаки наличия тессеракта внутри.

FineReader точно сам распознаёт
Re[4]: OCR на сервере
От: Кондраций Россия  
Дата: 04.07.19 15:44
Оценка:
Здравствуйте, Nuzhny, Вы писали:

...
N>FineReader точно сам распознаёт

Его можно купить и использовать как библиотечку? Мне только текст вытягивать, форматирование и прочее не нужно.
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!
Re[5]: OCR на сервере
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 04.07.19 18:12
Оценка:
Здравствуйте, Кондраций, Вы писали:
Яйца
N>>FineReader точно сам распознаёт
К>Его можно купить и использовать как библиотечку? Мне только текст вытягивать, форматирование и прочее не нужно.

Да, можно и как библиотеку купить.
Re[4]: OCR на сервере
От: Stalker. Австралия  
Дата: 05.07.19 01:10
Оценка:
Здравствуйте, Nuzhny, Вы писали:

N>FineReader точно сам распознаёт


ABBYY OCR один из лучших на рынке, но за него платить надо. Tессеракта внутри нет
Re[5]: OCR на сервере
От: Кондраций Россия  
Дата: 05.07.19 08:38
Оценка:
Здравствуйте, Stalker., Вы писали:

S>Здравствуйте, Nuzhny, Вы писали:


N>>FineReader точно сам распознаёт


S>ABBYY OCR один из лучших на рынке, но за него платить надо. Tессеракта внутри нет


Тессеракт 4 попробовал — неплохо. Но повёрнутые на 90 градусов не осилил.
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.