Здравствуйте, 0K, Вы писали:
0K>Кто может подсказать сабж?
Задавался таким же вопросом. Сабж не нашёл. Нашёл то что уже предлагали — всякие OCR библиотеки. Приводил каптчу к монохроматическому виду (по возможности как можно меньше шума, но без существенных потерь пикселей самих символов) и скармливал OCR. Результаты не впечатляли но были, потом решил рискнуть и писать свою OCR заточенную под конкретную каптчу: общий алгоритм — собираем много (я брал несколько тысяч) изображений каждого символа входящего в алфавит, нормализовал их (Ч/Б + ресайз, если есть поворот — выравнивание), а затем для каждого символа составлял матрицу коэффициентов вероятности каждого пиксела быть чёрным в данной позиции [i,j] Эти матрицы и были моей OCR: при распознании символа картинка прогоняется через все матрицы суммируя вероятности из матриц в тех местах где пиксель чёрный и 1-вероятность в тех местах где пиксель белый. В качестве ответа бралась та матрица у которой сумма получалась больше. Таким образом вероятность распознать 1 символ у меня колебалась в районе 90-100%, что для 4-5 буквенной каптчи даёт 65-60% распознаваний. Кстати многие каптчи позволяют в течении одной сессии получить несколько разных картинок с одним и тем же текстом — если распознать с десяток таких и потом частотным анализом взять наиболее часто выпадающие символы в соответствующих позициях, то вероятность правильного распознавания превышает 99,9 что более чем достаточно )
Могу привести примеры распознаных мною каптч:
раз и
два