Отсканировать бумажные книги.
От: fk0 Россия https://fk0.name
Дата: 20.02.22 12:18
Оценка:
Hello...

Хочу отсканировать несколько десятков бумажных книг разного формата.
Как это можно сделать?

Проблема с обычными сканерами:

1) ручная работа, легко ошибиться (пропустить страницу);

2) и чертовски медленно -- полминуты на страницу;

3) не равномерная освещённость (что будет потом проблемой, см. ниже);

4) не плотное прилегание книги и "заворот строчек" в центре страницы как следствие,
плохую фокусировка, размытие текста;

Проблемы с постобработкой:

1) неравномерная засветка позволяет только кодирование страницы в градациях серого,
перевести в монохромный вид не получается -- это и читать неудобно потом, и
объёмы информации гораздо больше. Допускаю, что эта проблема имеет алгоритмическое
решение.

2) хотелось бы распознавание текста и добавить потом буковки поверх картинки в djvu,
пусть далеко не 100% надёжно -- нужно не для чтения, а для поиска по тексту.

3) хотелось бы решить проблему с автоматическим поворотом и обрезкой изображения, если страница
была повернута при сканировании;

4) хотелось бы алгоритмически решить проблему с заворотом строчек на изгибе страницы;

5) и решить проблему с не резким фокусом, когда страница не прилегает к стеклу сканера.

По всем пунктам касающимся математической обработки хотелось бы уйти от специализированных
программ к чему-то вроде octave/matlab, чтоб иметь возможность во-первых подстройки алгоритма,
во-вторых запуска в пакетном режиме. Для распознавания текста тоже не годятся программы вроде
"FineReader". Нужна пакетная обработка изображений страниц и результат который можно в дальнейшем
интегрировать в процесс, а не просто вордовский файл.

Вообще задача сканирования и постобработки -- это две мало связанные, разделённые во времени
задачи. Первая должна породить множество дискретных файлов, хоть TIFF, потом их сжать в djvu
(иначе дисков не напасёшься), а потом вторая задача -- разобрать файлы обратно на страницы, обработать страницы и собрать обратно. Сейчас я умею что-то подобное делать с помощью netpbm/imagemagick и djvulibre.

По поводу сканирования. Обращаться к кому-то за деньги, думаю дохлый номер. Хотят безумно дорого
и разумеется напортачат где-то в середине, а такие ошибки потом съедят массу времени.

Скорей нужен сканер. Либо способный автоматически переворачивать страницы. Не знаю есть ли такое,
но скорей за космический ценник. Наверное вариант только если можно продать после того как попользовался.

Либо хотя бы способный работать быстро. Т.е. никаких крышек и стекла на которое нужно класть книгу.
Книга должна "сканироваться" сверху, фотографическим способом. На страницу должно уходить не более
сотен миллисекунд, иначе просто душу вымотает, с таким работать невозможно, когда оно расчитано на
работников "почты россии". И нужна кнопка запуска фотографирования. Перевернул-нажал.

Fujitsu ScanSnap вроде похож на такое. Но у них в рекламе: "при каждом нажатии кнопки «Scan» большая область сканирования формата A3 записывается менее чем за 3 секунды". Так невозможно. Если работать вручную есть какой-то ритм с которым может работать человек, когда нужно постоянно ждать, это выматывает. Я не понимаю проблемы. Такое впечатление, что это какое-то искусственное ограничение введённое секретными масонами исповедующими "461 градус по фаренгейту", и проще штатив для фотоаппарата приспособить... Хотя непонятно как там быть со светом. Купить бестеневую (круглую) лампу?

С фотоаппаратами тоже проблема. У меня был фотоаппарат Casio Exilim -- снимал сразу и не тормозил. Сейчас же обычно везде табличка "ждите, фотография записывается". Те же три секунды. Да и ещё срабатывание с задержкой после нажатия пуска. Фотоаппараты "для спортивных событий" отдельная категория за подвышенный ценник теперь. Может проще мобильник приспособить? Вот кажется реально так. Мобильник не тупит, даёт фотографии приличного качества, держатель с лампой для него купить на каждом углу можно. Нафоткать так все страницы. А потом перегнать на комп и обрабатывать. Зачем нужны дорогущие и тормозные сканеры? Наверняка с картинкой какие-то проблемы будут...

Если расстояние одно и искажения одинаковые, опять же наверное можно алгоритмически восстановить картинку, просто фиксированным алгоритмом с одними и теми же настройками. Но вот каким софтом пользоваться? Софт должен скриптоваться. Наверное задача выравнять освещённость (для чего вначале на белом листе по десятку точек замерить, а потом получить какой-то градиент на который домножать входящие изображения), и выравнять геометрические искажения (аналогично -- по сетке напечатаной на принтере откалибровать и потом в обратную сторону исправить)...

Да и с мобильником нужна какая-то программа, которая отключит всю автоматику вообще и позволит все настройки крутить исключительно руками. Баланс белого, выдержку, фокус, зум. Такое бывает? В более дорогом самсунге какое-то подобие есть, в дешевеньких -- полный автомат практически (т.е. не применимы). И нужен жёсткий штатив, иначе ж все калибровки без толку. На рынке полно шатких треног, но что-то, чтоб жёстко фиксировалось к столу -- не видел.

Пока писал, я понял, что я отстал от жизни. На рынке полно т.н. "документ-камер". Но нигде нет понятного описания -- что это? За 40 тыщ рублей пытаются продать веб-камеру на опять же гибком штативе? А свет отдельно самому городить? Склоняюсь, купить на Савеловском круглую лампу с держателем для телефона, там же тиски для ремонта мобильников с вакуумной присоской, одно зажать в другое и будет вполне себе. Уложусь в три тыщи. И у держалки для телефона есть даже кнопка для селфи -- то что надо! Перевернул, нажал. И не тормозит.

Может кто что посоветует.
Re: Отсканировать бумажные книги.
От: Михаил Романов Удмуртия https://mihailromanov.wordpress.com/
Дата: 21.02.22 09:53
Оценка:
Здравствуйте, fk0, Вы писали:

Я не то чтобы специалист — скорее так, немного соприкасался в бытность работы с документооборотом.
В целом, любое массовое сканирование, это аппаратно-программное решение.
Ну т.е. если у вас есть планетарный книжный сканер с колыбелью для книг, прижимными стеклами, поворотным сенсором, ... — у вас на выходе заведомо изображение близкое к результатам сканирования обычным планшетным сканером, и вам можно не заботиться о корректировке искажений, освещении, ... и т.д.
Более того, если у вас такой сканер — скорее всего и ПО у вас будет от того же поставщика.
Ну и совсем другое дело, когда для сканирования вы используете описанный вами вариант "лампа + штатив + смартфон/фотоаппарат", то всё остальное: возможное искажение по краям снимка и в месте разворота книги, выравнивание освещения, нарезки на страницы, ... — должно будет делать ПО.

Собственно, я бы попробовал двинутся в таком направлении:
— уточнить, нельзя ли воспользоваться где-то рядом с вами услугами по сканированию книг. Я помню, лет так 10 назад, был запущен проект по оцифровке фондов библиотек и под это дело закупали профессиональные книжные сканеры. Вполне возможно (особенно если вы живете в Москве/Питере, недалеко от вас может быть крупная библиотека, владеющая таким сканером и оказывающая подобные услуги (и у них это может быть значительно дешевле обычных частников).
— оценить для себя возможность покупки книжного сканера. Тут скорее всего сразу нет, т.к. на ваших объемах не то что эларовские профессиональные сканеры (кстати, полностью российский производитель специализированных сканеров — при этом известный больше за пределами нашей страны), но и более дешевые (например) — не окупятся. Но может быть у вас это только "первая ласточка" и далее придется сканировать еще...
Кстати, названный вами Fujitsu ScanSnap выйдет чуть дороже второго варианта, но, имхо, выглядит куда продуманнее... Впрочем — тут нужен опыт и длительная практика, чего у меня нет.
— наконец, можно подумать о самодельном (колхозном, если угодно) варианте.

Здесь нужно понимать, что в принципе, в зависимости от ценности и состояния книг могут применяться 2 варианта:
а) без расшивки (разброшюрования). Тут, видимо, все вариации "лампа + штатив + смартфон/фотоаппарат" — напрямую зависит от ваших навыков "самодельщика" и наличия свободного времени.
Мой отец, в свое время, на базе советского фотоувеличителя (примерно вот такого) сделал станок для фотокопирования документов (по большому счету, он добавил кронштейн на который крепился обычный фотоаппарат). За счет того, что у фотоувеличителя достаточно удобный штатив с 3 степенями свободы и возможностью выставить и жестко зафиксировать в нужной точке над объектом съемки — это на порядок удобнее чем обычный фотоштатив.

Здесь я вижу такие подводные камни:
— пригодность фотокамеры/объектива к съемке документов. У меня только на последних, относительно недешевых смартфонах, стали получаться нормально снимки документов. От моей старой цифровой "мыльницы" (несмотря на то, что оптика там лучше) я добиться этого не смог (хотя, может просто не старался).
— освещение. Тут не специалист, не подскажу. Может обычной круговой лампы будет достаточно.
— управление съемкой. Нажимать каждый раз кнопку на камере/телефоне — не особо круто. Собственно, для тех же смартфонов, да и для фотоаппаратов есть удаленный спуск затвора, ну или можно что-то намонстрячить самому (например, если телефон будет подключен к компьютеру).
— убирание искажений. В первую очередь, на развороте книги. Делать придется софтом. Я с таким не сталкивался, возможно, вне области документных сканеров он и не водится. Вот тут есть пример работы такого софта, который идет в комплекте с документным сканером.

б) с разброшюровкой. В принципе, если сами по себе книги не представляют для вас серьезной ценности, можно пойти даже на варварский вариант — просто разрезать на отдельные страницы. В ином варианте, можно аккуратно снять крышку, разделить блок на тетради и дальше уже тетради на листы... После этого можно сканировать как на обычном планшетном, так и, например, на потоковом.
Вообще потоковые сканеры есть сразу 2-хсторонние, со скоростью (я говорю про относительно бюджетные модели, например) около 15-20 стр/мин. Но (!) вряд ли вы найдете потоковый сканер просто у себя или знакомых, разве что в офисе + для сканирования неразрезанных листов нужен A3, а это совсем другой ценник (и в офисах практически не встречается).

Что касается постобработки и форматов хранения...
Т.к. вы говорили о djvue, я предположу, что сканировать вы хотите не просто текст (художественную литературу), а что-то более серьезное, где важно сохранить форматирование.

Мое мнение — не связывайтесь с djvu, лучше используйте "PDF с текстовым слоем" (или "PDF с возможностью поиска"). Тот же ABBYY FineReader PDF такое вполне создает. Можете попробовать на demo-версии, как это будет выглядеть.

По поводу "Софт должен скриптоваться" я бы для начала не стал завязываться на все эти ImageMagic-и а попробовал бы из полностью готового. И уж если не устроит оно — пытался бы велосипедить.
Re: Отсканировать бумажные книги.
От: wildwind Россия  
Дата: 21.02.22 10:27
Оценка: +1
Здравствуйте, fk0, Вы писали:

fk0> Хочу отсканировать несколько десятков бумажных книг разного формата.

fk0>Как это можно сделать?

Первый, даже нулевой, шаг — убедиться, что этого уже не сделал кто-то до тебя. Если книги представляют хоть какую-то ценность, вероятность этого весьма высока.

Если нет, то... У меня самого опыта с книгами нет, но я общался с оцифровщиками-любителями.
Сканеров, ориентированных на описанных тобой процесс и лишенных описанных тобой недостатков, на рынке нет. Потому, что нет рынка для них. Процесс массовой оцифровки старых книг завершился давным-давно, еще в прошлом веке. С тех пор для всего, что выходит на бумаге, есть цифровой вариант или исходник. Профессионалы архивисты же в любом случае не сканируют разворот, они расшивают книгу и сканируют отдельные листы.

С обычными планшетными сканерами или фотоаппаратами кропотливой ручной работы никак не избежать. Несмотря на то, что есть специализированный софт, помогающий ее автоматизировать. (В памяти всплывает название Scan Kromsator, погугли).
Сканирование и обработку лучше не разносить по времени. На потоке определенный процент страниц обязательно придется пересканировать. Лучше это делать сразу, когда весь контекст перед глазами и в голове. В особо тяжелых случаях потребуется несколько итераций.

Для распознавания ничего лучше Fine Reader не придумали. Хотя я сейчас не в теме, могу и ошибаться.
Re[2]: Отсканировать бумажные книги.
От: ути-пути Россия  
Дата: 20.03.22 08:46
Оценка: +1
Здравствуйте, Михаил Романов, Вы писали:

МР>- управление съемкой. Нажимать каждый раз кнопку на камере/телефоне — не особо круто. Собственно, для тех же смартфонов, да и для фотоаппаратов есть удаленный спуск затвора, ну или можно что-то намонстрячить самому (например, если телефон будет подключен к компьютеру).


Спуск должен штатно работать через стандартный аудиоразъем. По крайней мере, многие селфи-палки именно так подключаются.
Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.