Анализ отсккнированных страниц
От: x-code  
Дата: 17.10.10 18:12
Оценка:
Имеется отсканированная страница книги (черно-белая). На ней могут быть текст, таблицы, рисунки (фотографии), схемы, формулы, текст в рамочках и прочее — что обычно бывает в технической литературе.
Нужно выделить все эти объекты — например обвести их прямоугольниками/многоугольниками и однозначно распознать их тип. Распознавание собственно текста не нужно.
Какие существуют подходы для решения этой задачи? Без сложностей типа самообучающихся систем, сравнения с какими-то образцами и т.д. — а нечто простое и дубовое, но тем ни менее решающее данную задачу?
Re: Анализ отсккнированных страниц
От: MegaVoltik  
Дата: 17.10.10 20:59
Оценка:
Здравствуйте, x-code, Вы писали:

XC>а нечто простое и дубовое, но тем ни менее решающее данную задачу?


Задаче немелкая и в лоб по моему не решается. Если сомневаешься посмотри на успехи файнридера.
Кстати именно его и можно запрячь под это дело. Как именно не знаю но распознавальщики умудрются из него выдерать текст и прикреплять его к нужному месту на странице. Т.е. как то положение текстовых блоков на странице они определяют.
Чем больше нас, тем меньше их...
Re[2]: Анализ отсккнированных страниц
От: x-code  
Дата: 18.10.10 09:36
Оценка:
Здравствуйте, MegaVoltik, Вы писали:

MV>Задаче немелкая и в лоб по моему не решается. Если сомневаешься посмотри на успехи файнридера.

MV>Кстати именно его и можно запрячь под это дело. Как именно не знаю но распознавальщики умудрются из него выдерать текст и прикреплять его к нужному месту на странице. Т.е. как то положение текстовых блоков на странице они определяют.

Я сейчас могу выделить в изображении каждый элемент (букву) в прямоугольник (кстати, вчера написал этот пост — а сегодня придумал как алгоритм еще улучшить... чаще надо писать на rsdn:) ). Осталось придумать, что с этим делать. Вероятно, какие-то эвристические алгоритмы, которые, основываясь на размерах и каких-то метриках этих прямоугольников, будут определять что же это такое.
Готовые движки типа файнридера не подходят — возможно, софт будет на мобильных девайсах под разными осями. Да и не люблю я всякие "черные ящики" изучать.
И вообще интересно, по правильному ли пути я иду — может, все уже придумано до меня.
Re: Анализ отсккнированных страниц
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 18.10.10 10:52
Оценка:
Здравствуйте, x-code, Вы писали:

XC>Какие существуют подходы для решения этой задачи? Без сложностей типа самообучающихся систем, сравнения с какими-то образцами и т.д. — а нечто простое и дубовое, но тем ни менее решающее данную задачу?


Вообще, задача старая, поэтому методов её решения уйма.
Обычно находят линии строк, выравнивают изображение относительно них. Бинаризация + эрозия убирают текст, картинки остаются. Ну и так далее.
Re[3]: Анализ отсккнированных страниц
От: MegaVoltik  
Дата: 18.10.10 11:11
Оценка:
XC>Готовые движки типа файнридера не подходят — возможно, софт будет на мобильных девайсах под разными осями. Да и не люблю я всякие "черные ящики" изучать.
XC>И вообще интересно, по правильному ли пути я иду — может, все уже придумано до меня.

Ну дело твоё. Ты скорее там может увидеть чего реально достичь. Т.е. к чему можно стремиться.
А ещё есть прожка скан кромсатор. Там тоже множество алгоритмов обработки сканов реализовано. Вот открытая ли она не помню. Проверь
Чем больше нас, тем меньше их...
Re[4]: Анализ отсккнированных страниц
От: x-code  
Дата: 18.10.10 11:25
Оценка:
Здравствуйте, MegaVoltik, Вы писали:

MV>Ну дело твоё. Ты скорее там может увидеть чего реально достичь. Т.е. к чему можно стремиться.


Как работает файнридер я видел, он действительно выделяет текст/рисунки/таблицы прямоугольными блоками. Правда, оп пытается выделить в текст все что нужно и ненужно, в частности текстовые элементы рисунков и схем.

MV>А ещё есть прожка скан кромсатор. Там тоже множество алгоритмов обработки сканов реализовано. Вот открытая ли она не помню. Проверь :)

СканКромсатором я пользовался неоднократно, нет там таких алгоритмов распознавания. Это программа для обработки сырых сканов — разрезание сканов разворотов, бинаризация, выравнивание.
Re[2]: Анализ отсккнированных страниц
От: x-code  
Дата: 18.10.10 11:45
Оценка:
Здравствуйте, Nuzhny, Вы писали:

N>Вообще, задача старая, поэтому методов её решения уйма.

N>Обычно находят линии строк, выравнивают изображение относительно них. Бинаризация + эрозия убирают текст, картинки остаются. Ну и так далее.
Картинки в смысле фотогрфии, понятно, останутся. А картинки, которые схемы и таблицы — тоже ведь исчезнут?
Re[2]: Анализ отсккнированных страниц
От: AndreyM16  
Дата: 18.10.10 11:51
Оценка:
Здравствуйте, Nuzhny, Вы писали:

N>Вообще, задача старая, поэтому методов её решения уйма.

N>Обычно находят линии строк, выравнивают изображение относительно них. Бинаризация + эрозия убирают текст, картинки остаются. Ну и так далее.

И так далее, в данном случае, очень широкое и необозримое.
Re[3]: Анализ отсккнированных страниц
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 18.10.10 12:00
Оценка:
Здравствуйте, x-code, Вы писали:

XC>Картинки в смысле фотогрфии, понятно, останутся. А картинки, которые схемы и таблицы — тоже ведь исчезнут?


Да, исчезнут. Если границы строк тебе известны, то можно обнаружить не-тект по ним. А после уже определяться с типом не-текста по вторичным признакам.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.