Анализ отсккнированных страниц - Алгоритмы

Имеется отсканированная страница книги (черно-белая). На ней могут быть текст, таблицы, рисунки (фотографии), схемы, формулы, текст в рамочках и прочее — что обычно бывает в технической литературе.
Нужно выделить все эти объекты — например обвести их прямоугольниками/многоугольниками и однозначно распознать их тип. Распознавание собственно текста не нужно.
Какие существуют подходы для решения этой задачи? Без сложностей типа самообучающихся систем, сравнения с какими-то образцами и т.д. — а нечто простое и дубовое, но тем ни менее решающее данную задачу?

Здравствуйте, x-code, Вы писали:

XC>а нечто простое и дубовое, но тем ни менее решающее данную задачу?

Задаче немелкая и в лоб по моему не решается. Если сомневаешься посмотри на успехи файнридера.
Кстати именно его и можно запрячь под это дело. Как именно не знаю но распознавальщики умудрются из него выдерать текст и прикреплять его к нужному месту на странице. Т.е. как то положение текстовых блоков на странице они определяют.

Здравствуйте, MegaVoltik, Вы писали:

MV>Задаче немелкая и в лоб по моему не решается. Если сомневаешься посмотри на успехи файнридера.
MV>Кстати именно его и можно запрячь под это дело. Как именно не знаю но распознавальщики умудрются из него выдерать текст и прикреплять его к нужному месту на странице. Т.е. как то положение текстовых блоков на странице они определяют.

Я сейчас могу выделить в изображении каждый элемент (букву) в прямоугольник (кстати, вчера написал этот пост — а сегодня придумал как алгоритм еще улучшить... чаще надо писать на rsdn:) ). Осталось придумать, что с этим делать. Вероятно, какие-то эвристические алгоритмы, которые, основываясь на размерах и каких-то метриках этих прямоугольников, будут определять что же это такое.
Готовые движки типа файнридера не подходят — возможно, софт будет на мобильных девайсах под разными осями. Да и не люблю я всякие "черные ящики" изучать.
И вообще интересно, по правильному ли пути я иду — может, все уже придумано до меня.

Здравствуйте, x-code, Вы писали:

XC>Какие существуют подходы для решения этой задачи? Без сложностей типа самообучающихся систем, сравнения с какими-то образцами и т.д. — а нечто простое и дубовое, но тем ни менее решающее данную задачу?

Вообще, задача старая, поэтому методов её решения уйма.
Обычно находят линии строк, выравнивают изображение относительно них. Бинаризация + эрозия убирают текст, картинки остаются. Ну и так далее.

XC>Готовые движки типа файнридера не подходят — возможно, софт будет на мобильных девайсах под разными осями. Да и не люблю я всякие "черные ящики" изучать.
XC>И вообще интересно, по правильному ли пути я иду — может, все уже придумано до меня.

Ну дело твоё. Ты скорее там может увидеть чего реально достичь. Т.е. к чему можно стремиться.
А ещё есть прожка скан кромсатор. Там тоже множество алгоритмов обработки сканов реализовано. Вот открытая ли она не помню. Проверь

Здравствуйте, MegaVoltik, Вы писали:

MV>Ну дело твоё. Ты скорее там может увидеть чего реально достичь. Т.е. к чему можно стремиться.

Как работает файнридер я видел, он действительно выделяет текст/рисунки/таблицы прямоугольными блоками. Правда, оп пытается выделить в текст все что нужно и ненужно, в частности текстовые элементы рисунков и схем.

MV>А ещё есть прожка скан кромсатор. Там тоже множество алгоритмов обработки сканов реализовано. Вот открытая ли она не помню. Проверь :)
СканКромсатором я пользовался неоднократно, нет там таких алгоритмов распознавания. Это программа для обработки сырых сканов — разрезание сканов разворотов, бинаризация, выравнивание.

Здравствуйте, Nuzhny, Вы писали:

N>Вообще, задача старая, поэтому методов её решения уйма.
N>Обычно находят линии строк, выравнивают изображение относительно них. Бинаризация + эрозия убирают текст, картинки остаются. Ну и так далее.
Картинки в смысле фотогрфии, понятно, останутся. А картинки, которые схемы и таблицы — тоже ведь исчезнут?

Здравствуйте, Nuzhny, Вы писали:

N>Вообще, задача старая, поэтому методов её решения уйма.
N>Обычно находят линии строк, выравнивают изображение относительно них. Бинаризация + эрозия убирают текст, картинки остаются. Ну и так далее.

И так далее, в данном случае, очень широкое и необозримое.

Здравствуйте, x-code, Вы писали:

XC>Картинки в смысле фотогрфии, понятно, останутся. А картинки, которые схемы и таблицы — тоже ведь исчезнут?

Да, исчезнут. Если границы строк тебе известны, то можно обнаружить не-тект по ним. А после уже определяться с типом не-текста по вторичным признакам.

	От:	x-code
	Дата:	17.10.10 18:12
	Оценка:

	От:	MegaVoltik
	Дата:	17.10.10 20:59
	Оценка:

	От:	x-code
	Дата:	18.10.10 09:36
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	18.10.10 10:52
Оценка:

	От:	MegaVoltik
	Дата:	18.10.10 11:11
	Оценка: