Посоветуйте тему в области распознавания образов - Образование и наука

Здравствуйте, Michael7, Вы писали:

M>Сейчас доступа к FR4 нет, но чисто субъективно кажется, что как раз последний коммерческий Cuneiform 2000 был на уровне FR4 по точности. Может и хуже, не знаю, но сравнивать можно было

Ну я сравнивал как раз. Оно вторую половину 1990-х не прогрессировало по точности, только по фичам. У них же команда собственно распознавателей уехала.

M>Куни падает на больших файлах (больше не помню уже какого размера в точках) и это сейчас задокументированный баг.
Ну может и так тоже, но я его как-то сравнительно тестировал и у меня были проблемы подобрать тестовый набор файлов, на котором не падает

Tesseract, OCRopus, GOCR, ещё какие-то, пробовал я их. Или вообще русского не понимают или качество ниже плинтуса, cuneiform-а точно во всяком случае. Хотя английский довольно приличен. Правда тут намекают, что в последнее время в этом направлении тоже прогресс есть. Надо будет затестить.

Да что за проблема русский-то добавить? Половина букв вообще с английским совпадает
Проблемы будут только со всякими ЩЦД, ну поразрабатывать немного и поучить. Зато работа будет полезная, а не мартышкин труд, как с клинопиьсью...

Всем здрасти!

Посоветуйте интересный проект / научное направление в области распознавания образов.
В идеале, чтобы извлечь выгоду через несколько лет. А так пока и на энтузиазме сойдет.

Здравствуйте, Аноним, Вы писали:

А>Всем здрасти!

А>Посоветуйте интересный проект / научное направление в области распознавания образов.
А>В идеале, чтобы извлечь выгоду через несколько лет. А так пока и на энтузиазме сойдет.

Можно поучаствовать в развитии OCR cuneiform, её исходники сейчас открыты. Например здесь

Здравствуйте, Аноним, Вы писали:

А>Всем здрасти!

А>Посоветуйте интересный проект / научное направление в области распознавания образов.
А>В идеале, чтобы извлечь выгоду через несколько лет. А так пока и на энтузиазме сойдет.

1. NEAT, HyperNEAT, CPPN
2. некоторое из HTM
3. применение ГА для эволюции топологии сети, методы непрямого кодирования
5. нейросети на GPU

все это самые передовые направления, многим нет и десяти лет

ЗЫ. Может быть пообщаемся по email? hudvin@gmail.com

Здравствуйте, dmz, Вы писали:

LVV>>Поиск в программе мест, где можно применить один из паттернов программирования.

dmz>В принципе, наверное можно разработать язык программирования, каждая конструкция которого — будет "паттерном".
dmz>Тогда ни про какую строчку программы на этом языке нельзя будет сказать, что в ней не применяется какой-нибудь
dmz>паттерн. Останется переписать весь софт на этом языке, и искомая цель будет достигнута.
Ну, пока языки до такого не доросли. Но в средах уже реализуются надстройки. Например, в БлэкБоксе в библиотеке окружения реализован паттерн Модель-вид-контроллер.
В связи с этим интерес представляет графический язык Дракон. На OberonCore.ru на форуме обсуждают много.

Здравствуйте, Аноним, Вы писали:

А>Мне в голову приходила эта идея три года назад <...>

А>Недели должно хватить. Займусь на этих выходных.

Аж умилился, узнал себя.
"Да, думал я тут над идейкой самообучающейся мега-программы, надо будет на выходных сваять".

Блин, а сколько времени-то прошло после ВУЗа?
Всего 5 лет назад это было...

jhng пишет:
>
> Еще нерешенная на данный момент
> проблема — автоматическое распознование речи в условиях речеподобных
> помех.

А что в условиях неречеподобных или их отсутствия уже решена? "А
мужики-то не знают."

Posted via RSDN NNTP Server 2.1 beta

Здравствуйте, Erop, Вы писали:

E>Здравствуйте, Michael7, Вы писали:

M>>Можно поучаствовать в развитии OCR cuneiform, её исходники сейчас открыты. Например здесь

E>Всё равно оно не жилец

Пока что вполне ничего себя чувствует. Уже больше года есть линуксовая версия, относительно недавно она проникла в testing ветку Debian Linux. Вот конкретно сейчас поставил, попробовал. Вроде довольно прилично распознаёт. Конечно, хуже чем FineReader или ReadIris, но по сравнению с многими другими куда лучше. Да и главный недостаток, что в OpenSource версии нет поддержки распознавания таблиц.

Между тем, погуглив, я заметил, что именно cuneiform сейчас заменил tesseract в качестве распознавалки для создания текстового слоя в djvu и pdf-файлах у сканировщиков книг.

Здравствуйте, Аноним, Вы писали:

А>Всем здрасти!

А>Посоветуйте интересный проект / научное направление в области распознавания образов.
А>В идеале, чтобы извлечь выгоду через несколько лет. А так пока и на энтузиазме сойдет.

Например, создание автоматизированной мультимодальной системы постановки произношения с диагностикой ошибок. Еще нерешенная на данный момент проблема — автоматическое распознование речи в условиях речеподобных помех. Можно заняться созданием продвинутой системы компьютерного зрения, которая может интерактивно учиться узнавать показываемые ей объекты.

Вообще тем очень много начиная от автоматического поиска в интернете до автономных роботов. Выбирайте сами, что вам больше нравится.

Здравствуйте, LaptevVV, Вы писали:

LVV>Здравствуйте, Аноним, Вы писали:

А>>Всем здрасти!

А>>Посоветуйте интересный проект / научное направление в области распознавания образов.
А>>В идеале, чтобы извлечь выгоду через несколько лет. А так пока и на энтузиазме сойдет.
LVV>Поиск в программе мест, где можно применить один из паттернов программирования.

можно так: нейронная сеть с обратным распространением ошибки известна — а попробуй своять алгоритм,
где бы нейроны обучались все сразу в результате решения системы разностных уравнений
(разумеется численно и за приемлемое время, так как для 3-4000 нейронов уравнений будет очень много) коими вся сеть может быть описана

ну и для прикола бери не перцептроны румельхарта, а сеть из разных типов сетей да еще и введи затормаживающие сигналы

Здравствуйте, snautSH, Вы писали:

SH>можно так: нейронная сеть с обратным распространением ошибки известна — а попробуй своять алгоритм,
SH>где бы нейроны обучались все сразу в результате решения системы разностных уравнений

Мне в голову приходила эта идея три года назад, дабы ускорить процесс обучения многослойного персептрона. Но научный руководитель сказал использовать другую модель, не mlp, так что ...

Недели должно хватить. Займусь на этих выходных.

Здравствуйте, Аноним, Вы писали:

А>Посоветуйте интересный проект / научное направление в области распознавания образов.
А>В идеале, чтобы извлечь выгоду через несколько лет. А так пока и на энтузиазме сойдет.

Сделать поисковую систему, в которую можно насвистеть мотивчик, и она найдет оригинал. Подумать о том, как эту идею можно обобщить на поиск изображений и кино — тут проблема в том, чего подавать на входе.

А>Недели должно хватить. Займусь на этих выходных.

недели не хватит — мы говорим о иерархическом перцептроне с различными типами сетей на разных иерархиях и даже различными связями

Здравствуйте, Аноним, Вы писали:

Фича как в iPhoto — сортировка кучи фоток по наличию сних того или иного человека.

LVV>Поиск в программе мест, где можно применить один из паттернов программирования.

В принципе, наверное можно разработать язык программирования, каждая конструкция которого — будет "паттерном".
Тогда ни про какую строчку программы на этом языке нельзя будет сказать, что в ней не применяется какой-нибудь
паттерн. Останется переписать весь софт на этом языке, и искомая цель будет достигнута.

Здравствуйте, snautSH, Вы писали:

SH>ну и для прикола бери не перцептроны румельхарта, а сеть из разных типов сетей да еще и введи затормаживающие сигналы

А зачем вообще это надо? Можно просто не делать нейронную сеть, а выбрать другую какую-нибудь структуру...

Например что-нибудь на базе нечёткой логики замутить

Здравствуйте, snautSH, Вы писали:

SH>недели не хватит — мы говорим о иерархическом перцептроне с различными типами сетей на разных иерархиях и даже различными связями

Дык, таки, на кой так сложно?

Здравствуйте, Michael7, Вы писали:

M>Можно поучаствовать в развитии OCR cuneiform, её исходники сейчас открыты. Например здесь

Всё равно оно не жилец

Здравствуйте, Michael7, Вы писали:

M>Пока что вполне ничего себя чувствует. Уже больше года есть линуксовая версия, относительно недавно она проникла в testing ветку Debian Linux. Вот конкретно сейчас поставил, попробовал. Вроде довольно прилично распознаёт. Конечно, хуже чем FineReader или ReadIris, но по сравнению с многими другими куда лучше. Да и главный недостаток, что в OpenSource версии нет поддержки распознавания таблиц.

Во-первых, FineReader и ReadIris -- это разные уровни точности распознавания. Конкурент FR -- это OmniPage, а не редиска.
Во-вторых, "по сравниею с другими" -- это бессмысленно. Сравнивать надо не с "другими", а с секретарём-машинисткой! И уже ReadIris на грани осмысленности применения находится, на самом деле. А всё что хуже -- это просто полный отстой...

M>Между тем, погуглив, я заметил, что именно cuneiform сейчас заменил tesseract в качестве распознавалки для создания текстового слоя в djvu и pdf-файлах у сканировщиков книг.

Дык там нет вообще никаких требований к точности...

Ты вот попробуй книжку пораспознавать, чтобы в реферат результат вставить, например

Здравствуйте, dmz, Вы писали:
dmz>В принципе, наверное можно разработать язык программирования, каждая конструкция которого — будет "паттерном".
Хм... Тут по идее достаточно языка программирования с сильными средствами абстракции, haskell, например. Разработать в нем библиотеку паттернов, оперирующих внутри монады Pattern. Таким образом, любая программа под монадой Pattern будет состоять из одних лишь паттернов.

http://en.wikipedia.org/wiki/Advanced_driver_assistance_systems

Advanced driver assistance systems

Целый ряд задач, в том числе и распознавания образов, компьютерное зрение. Очень перспективно с точки зрения денег, через годик два, большинство автопроизводителей будут активно развивать это направление.

Здравствуйте, Erop, Вы писали:

E>Во-первых, FineReader и ReadIris -- это разные уровни точности распознавания. Конкурент FR -- это OmniPage, а не редиска.
E>Во-вторых, "по сравниею с другими" -- это бессмысленно. Сравнивать надо не с "другими", а с секретарём-машинисткой! И уже ReadIris на грани осмысленности применения находится, на самом деле. А всё что хуже -- это просто полный отстой...

Я когда-то пробовал какую-то старую версию ReadIris, кажется 8-ю, сейчас опробовал 12-ю. На мой взгляд прогресс очевиден. OmniPage как-то не довелось использовать, даже не видел.

Теперь, что касается Cuneiform. В 90-х годах, эта OCR вполне удачно конкурировала с Finereader, несколько уступая ему по мелочам. Но потом CT прекратили его развивать и естественно, сейчас движок уже устарел. Впрочем, глянув на код, я этому не удивляюсь. Удивляюсь как сумели под Linux откомпилировать и даже заставить стабильно работать.

Но тем не менее, по качеству именно распознавания cuneiform даже сейчас не сильно уступает Finereader. Могу сказать, что в моём пробном тексте (некий документ на русском языке с небольшим количеством английского в A4, bw 300dpi), FR9 показал отличнейший результат, он распознал документ, не сделав среди 2404 символов ни одной ошибки! В том числе правильно распознал и наклеенных штрих-код и подпись к штрих-коду и правильно расставил верхние и нижние индексы. Cuneiform, к сожалению, штрих-код вообще не распознал и в остальном тексте сделал три ошибки.

Однако ничего лучшего Cuneiform для распознавания русско-английского текста среди FOSS просто нет. К тому же он существенно быстрее FR9, на этот файл затратил около 2 сек. против 15 у FR9. Для потоковой обработки это весьма существенно. А мне именно и надо провести потоковую обработку с возможностью затем документы как засунуть в поисковую систему, так и представить их в pdf или djvu (еще не определились) с текстовым слоем.

M>>Между тем, погуглив, я заметил, что именно cuneiform сейчас заменил tesseract в качестве распознавалки для создания текстового слоя в djvu и pdf-файлах у сканировщиков книг.

E>Дык там нет вообще никаких требований к точности...

E>Ты вот попробуй книжку пораспознавать, чтобы в реферат результат вставить, например

В принципе тоже можно. Точность cuneiform для этого достаточна, на досуге сейчас как раз буду пробовать это делать в Linux cо своими книжками, проверю так сказать, на опыте.

Здравствуйте, Michael7, Вы писали:

M>Теперь, что касается Cuneiform. В 90-х годах, эта OCR вполне удачно конкурировала с Finereader, несколько уступая ему по мелочам. Но потом CT прекратили его развивать и естественно, сейчас движок уже устарел. Впрочем, глянув на код, я этому не удивляюсь. Удивляюсь как сумели под Linux откомпилировать и даже заставить стабильно работать.

Хе! FR 1.х в 90-х был такое же фуфло, как и клинопись. Хоть сколько-то приемлемо распознавал FR 4.x. Куни его уже никогда не догнал...
В любом случае оба хуже современной редиски, так что нет никакого смысла возиться что с тем, что с другим.

M>он распознал документ, не сделав среди 2404 символов ... Cuneiform, к сожалению, штрих-код вообще не распознал и в остальном тексте сделал три ошибки.

Ну, то есть одна ошибка на 800 символов, при хорошем качестве. Хорошая машинистка, это 300 символов в минуту, то есть каждые три минуты ошибка. Ты станешь держать такую машинистку?

M>Однако ничего лучшего Cuneiform для распознавания русско-английского текста среди FOSS просто нет. К тому же он существенно быстрее FR9, на этот файл затратил около 2 сек. против 15 у FR9. Для потоковой обработки это весьма существенно. А мне именно и надо провести потоковую обработку с возможностью затем документы как засунуть в поисковую систему, так и представить их в pdf или djvu (еще не определились) с текстовым слоем.

Это всё очень от целей зависит. Если на точность плевать, то пофиг всё. Если не плевать, то нужна ручная выверка, а это очень долго...

E>>Ты вот попробуй книжку пораспознавать, чтобы в реферат результат вставить, например

M>В принципе тоже можно. Точность cuneiform для этого достаточна, на досуге сейчас как раз буду пробовать это делать в Linux cо своими книжками, проверю так сказать, на опыте.

Ну проверь. Куни, кстати, ещё и нестабильный был очень. Может под линукс его отладили, а так он глюкало ещё то.
Есть, кстати, гуглическая распознавалка. Можно пытаться адаптировать её на русский. IMHO, это и то перспективнее, чем попытки гальванизации Cuneiform'а...

Здравствуйте, Erop, Вы писали:

E>Есть, кстати, гуглическая распознавалка.

Не совсем очевидно, какое отношение сабж имеет к Гуглу. Вроде, какое-то имеет, но какое именно — непонятно.

E>Можно пытаться адаптировать её на русский.

Относительно недавно появилась третья версия Тессеракта (пока в исходниках из репозитория, релиза ещё не было). Он русскому языку уже обучен искаропки, так что даже адаптировать не придётся. Причём по субъективным ощущениям распознаёт не хуже CuneiForm.

E>IMHO, это и то перспективнее, чем попытки гальванизации Cuneiform'а...

Насчёт гальванизации — точно подмечено. Сообщество мертво, регистрация на форуме поломана, мейнтейнер не отвечает на письма. «Не уважаю совершенно» ©

Здравствуйте, Qbit86, Вы писали:

Q>Не совсем очевидно, какое отношение сабж имеет к Гуглу. Вроде, какое-то имеет, но какое именно — непонятно.
Ну пофиг, главное понятно о чём речь...

Q>Относительно недавно появилась третья версия Тессеракта (пока в исходниках из репозитория, релиза ещё не было). Он русскому языку уже обучен искаропки, так что даже адаптировать не придётся. Причём по субъективным ощущениям распознаёт не хуже CuneiForm.

Ну так CuneiForm -- это технологии конца 1980-х примерно. А сейчас уже 2010-е...

Q>Насчёт гальванизации — точно подмечено. Сообщество мертво, регистрация на форуме поломана, мейнтейнер не отвечает на письма. «Не уважаю совершенно» ©

Да дохлое оно. Не надо тревожить дедушку, лохматя бабушку. Пусть себе спит спокойно...

Здравствуйте, Erop, Вы писали:

E>Хе! FR 1.х в 90-х был такое же фуфло, как и клинопись. Хоть сколько-то приемлемо распознавал FR 4.x. Куни его уже никогда не догнал...

Сейчас доступа к FR4 нет, но чисто субъективно кажется, что как раз последний коммерческий Cuneiform 2000 был на уровне FR4 по точности. Может и хуже, не знаю, но сравнивать можно было

E>Ну, то есть одна ошибка на 800 символов, при хорошем качестве. Хорошая машинистка, это 300 символов в минуту, то есть каждые три минуты ошибка. Ты станешь держать такую машинистку?

Начнём с того, что 300 символов в минуту — это на самом деле очень хорошая машинистка, на практике нормальная машинистка — это 120-150 символов в минуту. Тут надо ещё учитывать, что рекорд — это одно, а средняя скорость в процессе длительного набора текста — совсем другое. Да и ошибки они тоже допускают. Примерно одну на лист считается вполне приемлемым.

Но сейчас сравнивать OCR и машинистку не совсем корректно, потому что у них в настоящее время разные задачи.

E>Это всё очень от целей зависит. Если на точность плевать, то пофиг всё. Если не плевать, то нужна ручная выверка, а это очень долго...

Естественно на точность не плевать, но нередко бывает так, что какой-то процент ошибок всё же считается допустимым. Тем более, что нужен Finereader Engine или хотя бы Server, а обычный Finereader умышленно сделан негодным для автоматической обработки, в нем максимум можно расписание составить для вручную сформированного задания. Правда некоторые способы заставить его таки автоматом работать и сохранять результаты есть, но это все извращение и грязный хак, сомнительный прежде всего с точки зрения стабильности работы и получаемого результата (потому что в случае ошибок можно их не сразу заметить).

E>Ну проверь. Куни, кстати, ещё и нестабильный был очень. Может под линукс его отладили, а так он глюкало ещё то.

Куни падает на больших файлах (больше не помню уже какого размера в точках) и это сейчас задокументированный баг.

E>Есть, кстати, гуглическая распознавалка. Можно пытаться адаптировать её на русский. IMHO, это и то перспективнее, чем попытки гальванизации Cuneiform'а...

Здравствуйте, Erop, Вы писали:

E>Да что за проблема русский-то добавить? Половина букв вообще с английским совпадает
E>Проблемы будут только со всякими ЩЦД, ну поразрабатывать немного и поучить.

С русскими буквами другая проблема:

Особенностью современных кириллических шрифтов является то, что большинство русских строчных букв прямого начертания (за исключением семи: «Аа», «Бб», «Ее», «Ёё», «Рр», «Уу», «Фф») практически полностью повторяют рисунок прописных. Для иностранца (и для OCR-системы — прим. Qbit) кириллический текст кажется набранным почти сплошной капителью. © http://ru.wikipedia.org/wiki/Капитель_(шрифт)

Здравствуйте, Qbit86, Вы писали:

Q>

Особенностью современных кириллических шрифтов является то, что большинство русских строчных букв прямого начертания (за исключением семи: «Аа», «Бб», «Ее», «Ёё», «Рр», «Уу», «Фф») практически полностью повторяют рисунок прописных. Для иностранца (и для OCR-системы — прим. Qbit) кириллический текст кажется набранным почти сплошной капителью. © http://ru.wikipedia.org/wiki/Капитель_(шрифт)

Тоже мне проблема. Множества букв в детекторе капители настроить...

Хинт. CcOoPpSsVvWwXxZz. А ещё и Ii Il Jj Uu в рубленных шрифтах

Здравствуйте, Erop, Вы писали:

E>Ну я сравнивал как раз. Оно вторую половину 1990-х не прогрессировало по точности, только по фичам. У них же команда собственно распознавателей уехала.

В принципе, на форуме cunieform выложены и какие-то научные работы по распознаванию. Скачивал я это всё, довольно немало документов, но этож кто сейчас осилит всю математику поднять и соотнести с тем, что накодировали.

M>>Куни падает на больших файлах (больше не помню уже какого размера в точках) и это сейчас задокументированный баг.
E>Ну может и так тоже, но я его как-то сравнительно тестировал и у меня были проблемы подобрать тестовый набор файлов, на котором не падает

У меня произвольно не падает, может допилили, а скорее всего, стабильнее (в Linux) стало из-за того, что весь интерфейс выкинули, а там тоже у CT было наворочено. Плюс некоторые фичи, например, распознавание таблиц убраны и из самого движка. Или на x86_64 чего-нибудь не переполняется то, что на ia32 переполнялось

А может просто не дошёл до падения. Кстати, спасибо за наводку, вспомнил, что надо озаботиться устроить стресс-тест на нескольких тысячах файлов.

Хотя на большом потоке файлов и у Finereader были проблемы. Не знаю как сейчас в 9-ой или 10-й версии, но FR Engine 6-ой версии бывало что и глючил на тысячных потоках. Причём интересно так глючил, с количеством распознанных страниц росла вероятность, что в очередную страницу будут вставлены отдельные куски текста из распознававшихся раннее, не обязательно предыдущей. Видимо были какие-то проблемы с указателями и чисткой памяти. Поэтому пришлось сочинить скрипт принудительно где-то раз в два часа перезагружающий компьютер (просто перезапуска FR Engine могло быть недостаточно) и вновь запускающий автоматически после загрузки системы распознавание. Плюс отлавливать баги по размеру файлов (обычно когда начинались такие ошибки, он ещё и потом выдавал пустые результаты)

E>Да что за проблема русский-то добавить? Половина букв вообще с английским совпадает

Может лень

но в принципе, нужно еще не просто наличие русского языка, а распознавание смеси русских и английских слов в одном тексте, а для этого недостаточно обучить кириллице.

E>Проблемы будут только со всякими ЩЦД, ну поразрабатывать немного и поучить. Зато работа будет полезная, а не мартышкин труд, как с клинопиьсью...

Может и так, в принципе Tesseract и OCRopus выглядят достаточно интересными проектами. Но вот чисто практически пока что для моих целей уступили cuneiform-у.

Здравствуйте, Michael7, Вы писали:

M>Кстати, спасибо за наводку, вспомнил, что надо озаботиться устроить стресс-тест на нескольких тысячах файлов.
для "спасибо" тут есть кнопки

M>Хотя на большом потоке файлов и у Finereader были проблемы. Не знаю как сейчас в 9-ой или 10-й версии, но FR Engine 6-ой версии бывало что и глючил на тысячных потоках. Причём интересно так глючил, с количеством распознанных страниц росла вероятность, что в очередную страницу будут вставлены отдельные куски текста из распознававшихся раннее, не обязательно предыдущей. Видимо были какие-то проблемы с указателями и чисткой памяти. Поэтому пришлось сочинить скрипт принудительно где-то раз в два часа перезагружающий компьютер (просто перезапуска FR Engine могло быть недостаточно) и вновь запускающий автоматически после загрузки системы распознавание. Плюс отлавливать баги по размеру файлов (обычно когда начинались такие ошибки, он ещё и потом выдавал пустые результаты)

странная какая-то проблема. Странная в первую очередь потому, что надо было комп перезагружать. В Винде фиг чего из прошлой копии процесса получишь. А что сказали в поддержке АБИ?

M>Может и так, в принципе Tesseract и OCRopus выглядят достаточно интересными проектами. Но вот чисто практически пока что для моих целей уступили cuneiform-у.

Ну бывает. Может потестишь ещё и передумаешь. А может под линукс оно получше работает...

	От:	LaptevVV
	Дата:	30.08.09 12:31
	Оценка:

От:	denisko	http://sdeniskos.blogspot.com/
Дата:	10.09.09 08:36
Оценка:	+1

	От:	Erop
	Дата:	25.02.10 11:19
	Оценка:	1 (1)

	От:	Аноним
	Дата:	30.08.09 10:23
	Оценка:

	От:	Michael7
	Дата:	01.09.09 09:28
	Оценка:

От:	Evgolas	http://DelaDarom.Ru
Дата:	15.09.09 20:10
Оценка:

От:	Pzz	https://github.com/alexpevzner
Дата:	01.09.09 23:51
Оценка:

От:	Qbit86	https://twitter.com/qbit86
Дата:	24.02.10 15:33
Оценка:

	От:	hudvin
	Дата:	09.09.09 11:15
	Оценка:

	От:	Vzhyk
	Дата:	19.09.09 07:50
	Оценка:	+1

	От:	snautSH
	Дата:	31.08.09 09:20
	Оценка:

	От:	snautSH
	Дата:	02.09.09 08:11
	Оценка: