Здравствуйте, fk0, Вы писали:
Я не то чтобы специалист — скорее так, немного соприкасался в бытность работы с документооборотом.
В целом, любое массовое сканирование, это аппаратно-программное решение.
Ну т.е. если у вас есть планетарный книжный сканер с колыбелью для книг, прижимными стеклами, поворотным сенсором, ... — у вас на выходе заведомо изображение близкое к результатам сканирования обычным планшетным сканером, и вам можно не заботиться о корректировке искажений, освещении, ... и т.д.
Более того, если у вас такой сканер — скорее всего и ПО у вас будет от того же поставщика.
Ну и совсем другое дело, когда для сканирования вы используете описанный вами вариант "лампа + штатив + смартфон/фотоаппарат", то всё остальное: возможное искажение по краям снимка и в месте разворота книги, выравнивание освещения, нарезки на страницы, ... — должно будет делать ПО.
Собственно, я бы попробовал двинутся в таком направлении:
— уточнить, нельзя ли воспользоваться где-то рядом с вами услугами по сканированию книг. Я помню, лет так 10 назад, был запущен проект по оцифровке фондов библиотек и под это дело закупали профессиональные книжные сканеры. Вполне возможно (особенно если вы живете в Москве/Питере, недалеко от вас может быть крупная библиотека, владеющая таким сканером и оказывающая подобные услуги (и у них это может быть значительно дешевле обычных частников).
— оценить для себя возможность покупки книжного сканера. Тут скорее всего сразу
нет, т.к. на ваших объемах не то что
эларовские профессиональные сканеры (кстати, полностью российский производитель специализированных сканеров — при этом известный больше за пределами нашей страны), но и более дешевые (
например) — не окупятся. Но может быть у вас это только "первая ласточка" и далее придется сканировать еще...
Кстати, названный вами Fujitsu ScanSnap выйдет чуть дороже второго варианта, но, имхо, выглядит куда продуманнее... Впрочем — тут нужен опыт и длительная практика, чего у меня нет.
— наконец, можно подумать о самодельном (колхозном, если угодно) варианте.
Здесь нужно понимать, что в принципе, в зависимости от ценности и состояния книг могут применяться 2 варианта:
а) без расшивки (разброшюрования). Тут, видимо, все вариации "лампа + штатив + смартфон/фотоаппарат" — напрямую зависит от ваших навыков "самодельщика" и наличия свободного времени.
Мой отец, в свое время, на базе советского фотоувеличителя (примерно
вот такого) сделал станок для фотокопирования документов (по большому счету, он добавил кронштейн на который крепился обычный фотоаппарат). За счет того, что у фотоувеличителя достаточно удобный штатив с 3 степенями свободы и возможностью выставить и жестко зафиксировать в нужной точке
над объектом съемки — это на порядок удобнее чем обычный фотоштатив.
Здесь я вижу такие подводные камни:
— пригодность фотокамеры/объектива к съемке документов. У меня только на последних, относительно недешевых смартфонах, стали получаться нормально снимки документов. От моей старой цифровой "мыльницы" (несмотря на то, что оптика там лучше) я добиться этого не смог (хотя, может просто не старался).
— освещение. Тут не специалист, не подскажу. Может обычной круговой лампы будет достаточно.
— управление съемкой. Нажимать каждый раз кнопку на камере/телефоне — не особо круто. Собственно, для тех же смартфонов, да и для фотоаппаратов есть
удаленный спуск затвора, ну или можно что-то намонстрячить самому (например, если телефон будет подключен к компьютеру).
— убирание искажений. В первую очередь, на развороте книги. Делать придется софтом. Я с таким не сталкивался, возможно, вне области документных сканеров он и не водится. Вот
тут есть пример работы такого софта, который идет в комплекте с документным сканером.
б) с разброшюровкой. В принципе, если сами по себе книги не представляют для вас серьезной ценности, можно пойти даже на варварский вариант — просто разрезать на отдельные страницы. В ином варианте, можно аккуратно снять крышку, разделить блок на тетради и дальше уже тетради на листы... После этого можно сканировать как на обычном планшетном, так и, например, на потоковом.
Вообще потоковые сканеры есть сразу 2-хсторонние, со скоростью (я говорю про относительно бюджетные модели,
например) около 15-20 стр/мин. Но (!) вряд ли вы найдете потоковый сканер просто у себя или знакомых, разве что в офисе + для сканирования неразрезанных листов нужен A3, а это совсем другой ценник (и в офисах практически не встречается).
Что касается постобработки и форматов хранения...
Т.к. вы говорили о djvue, я предположу, что сканировать вы хотите не просто текст (художественную литературу), а что-то более серьезное, где важно сохранить форматирование.
Мое мнение — не связывайтесь с djvu, лучше используйте "PDF с текстовым слоем" (или "PDF с возможностью поиска"). Тот же
ABBYY FineReader PDF такое вполне создает. Можете попробовать на demo-версии, как это будет выглядеть.
По поводу "Софт должен скриптоваться" я бы для начала не стал завязываться на все эти ImageMagic-и а попробовал бы из полностью готового. И уж если не устроит оно — пытался бы велосипедить.