Имеется отсканированная страница книги (черно-белая). На ней могут быть текст, таблицы, рисунки (фотографии), схемы, формулы, текст в рамочках и прочее — что обычно бывает в технической литературе.
Нужно выделить все эти объекты — например обвести их прямоугольниками/многоугольниками и однозначно распознать их тип. Распознавание собственно текста не нужно.
Какие существуют подходы для решения этой задачи? Без сложностей типа самообучающихся систем, сравнения с какими-то образцами и т.д. — а нечто простое и дубовое, но тем ни менее решающее данную задачу?
Здравствуйте, x-code, Вы писали:
XC>а нечто простое и дубовое, но тем ни менее решающее данную задачу?
Задаче немелкая и в лоб по моему не решается. Если сомневаешься посмотри на успехи файнридера.
Кстати именно его и можно запрячь под это дело. Как именно не знаю но распознавальщики умудрются из него выдерать текст и прикреплять его к нужному месту на странице. Т.е. как то положение текстовых блоков на странице они определяют.
Здравствуйте, MegaVoltik, Вы писали:
MV>Задаче немелкая и в лоб по моему не решается. Если сомневаешься посмотри на успехи файнридера. MV>Кстати именно его и можно запрячь под это дело. Как именно не знаю но распознавальщики умудрются из него выдерать текст и прикреплять его к нужному месту на странице. Т.е. как то положение текстовых блоков на странице они определяют.
Я сейчас могу выделить в изображении каждый элемент (букву) в прямоугольник (кстати, вчера написал этот пост — а сегодня придумал как алгоритм еще улучшить... чаще надо писать на rsdn:) ). Осталось придумать, что с этим делать. Вероятно, какие-то эвристические алгоритмы, которые, основываясь на размерах и каких-то метриках этих прямоугольников, будут определять что же это такое.
Готовые движки типа файнридера не подходят — возможно, софт будет на мобильных девайсах под разными осями. Да и не люблю я всякие "черные ящики" изучать.
И вообще интересно, по правильному ли пути я иду — может, все уже придумано до меня.
Здравствуйте, x-code, Вы писали:
XC>Какие существуют подходы для решения этой задачи? Без сложностей типа самообучающихся систем, сравнения с какими-то образцами и т.д. — а нечто простое и дубовое, но тем ни менее решающее данную задачу?
Вообще, задача старая, поэтому методов её решения уйма.
Обычно находят линии строк, выравнивают изображение относительно них. Бинаризация + эрозия убирают текст, картинки остаются. Ну и так далее.
XC>Готовые движки типа файнридера не подходят — возможно, софт будет на мобильных девайсах под разными осями. Да и не люблю я всякие "черные ящики" изучать. XC>И вообще интересно, по правильному ли пути я иду — может, все уже придумано до меня.
Ну дело твоё. Ты скорее там может увидеть чего реально достичь. Т.е. к чему можно стремиться.
А ещё есть прожка скан кромсатор. Там тоже множество алгоритмов обработки сканов реализовано. Вот открытая ли она не помню. Проверь
Здравствуйте, MegaVoltik, Вы писали:
MV>Ну дело твоё. Ты скорее там может увидеть чего реально достичь. Т.е. к чему можно стремиться.
Как работает файнридер я видел, он действительно выделяет текст/рисунки/таблицы прямоугольными блоками. Правда, оп пытается выделить в текст все что нужно и ненужно, в частности текстовые элементы рисунков и схем.
MV>А ещё есть прожка скан кромсатор. Там тоже множество алгоритмов обработки сканов реализовано. Вот открытая ли она не помню. Проверь :)
СканКромсатором я пользовался неоднократно, нет там таких алгоритмов распознавания. Это программа для обработки сырых сканов — разрезание сканов разворотов, бинаризация, выравнивание.
Здравствуйте, Nuzhny, Вы писали:
N>Вообще, задача старая, поэтому методов её решения уйма. N>Обычно находят линии строк, выравнивают изображение относительно них. Бинаризация + эрозия убирают текст, картинки остаются. Ну и так далее.
Картинки в смысле фотогрфии, понятно, останутся. А картинки, которые схемы и таблицы — тоже ведь исчезнут?
Здравствуйте, Nuzhny, Вы писали:
N>Вообще, задача старая, поэтому методов её решения уйма. N>Обычно находят линии строк, выравнивают изображение относительно них. Бинаризация + эрозия убирают текст, картинки остаются. Ну и так далее.
И так далее, в данном случае, очень широкое и необозримое.