Есть проект на ASP.NET, хостинг виндовый на предприятии.
Нужно на сервер загружать картинки, на которых может быть текст. Текст нужно распознавать.
Попробовал использовать IronOcr — что-то не понравилось, не очень хорошо распознаёт и есть подозрение, что именно он память жрёт, не смотря на то, что вроде как на .NET написан.
Хочу попробовать Tesseract. Эта либа написана на C или C++, соответственно хостить её в процессе сервера ссыкотно в силу потенциальных утечек памяти. Есть вариант запускать его на сервере как exe, скармливая и получая данные через файлы.
Что скажете за этот подход?
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!
Здравствуйте, Кондраций, Вы писали:
К>Есть проект на ASP.NET, хостинг виндовый на предприятии. К>Нужно на сервер загружать картинки, на которых может быть текст. Текст нужно распознавать.
сейчас популярны облачные OCR, у гугла, амазона и многих других есть, в том числе и бесплатные, куда лучше чем заморачиваться с собственным сервером
... S>сейчас популярны облачные OCR, у гугла, амазона и многих других есть, в том числе и бесплатные, куда лучше чем заморачиваться с собственным сервером
Ничего облачного, ничего внешнего. Периметр в наличии
И описанное — часть другой задачи, и не что-то самодостаточное.
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!
Здравствуйте, Кондраций, Вы писали:
К>Хочу попробовать Tesseract. Эта либа написана на C или C++, соответственно хостить её в процессе сервера ссыкотно в силу потенциальных утечек памяти. Есть вариант запускать его на сервере как exe, скармливая и получая данные через файлы. К>Что скажете за этот подход?
Подход нормальный, но tesseract штука капризная. Его под каждую задачу приходится настраивать, раньше во всяком случае. Сомневаюсь, что он научился хорошо работать из коробки.
...
N>Подход нормальный, но tesseract штука капризная. Его под каждую задачу приходится настраивать, раньше во всяком случае. Сомневаюсь, что он научился хорошо работать из коробки.
Спасиб.
Попробуем, другого варианта всё равно пока нет. Всё остальное, что встречалось, в том числе платное, имело признаки наличия тессеракта внутри.
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!
Здравствуйте, Кондраций, Вы писали:
К>Спасиб. К>Попробуем, другого варианта всё равно пока нет. Всё остальное, что встречалось, в том числе платное, имело признаки наличия тессеракта внутри.
Его можно купить и использовать как библиотечку? Мне только текст вытягивать, форматирование и прочее не нужно.
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!
Здравствуйте, Кондраций, Вы писали:
Яйца N>>FineReader точно сам распознаёт К>Его можно купить и использовать как библиотечку? Мне только текст вытягивать, форматирование и прочее не нужно.
Здравствуйте, Stalker., Вы писали:
S>Здравствуйте, Nuzhny, Вы писали:
N>>FineReader точно сам распознаёт
S>ABBYY OCR один из лучших на рынке, но за него платить надо. Tессеракта внутри нет
Тессеракт 4 попробовал — неплохо. Но повёрнутые на 90 градусов не осилил.
Сообщение заговорено потомственным колдуном, целителем и магом в девятом поколении!
Модерирование или минусование сообщения ведет к половому бессилию, венерическим заболеваниям, венцу безбрачия и диарее!