Не уверен что выбрал тот форум, если нет, то подскажите где можно попросить совета...
Задача: Разработать систему, автоматизированного разбора PDF документов.
Шаг 1: Создание шаблона документа — Пользователь загружает пример документа, размечает его, и сохраняет эту разметку как шаблон.
Шаг 2: Разбор документов на основе шаблона — Пользователь загружает документ, выбирает шаблон и получает экстрагированные данные.
Требования к реализации: Система должна быть реализована в виде веб приложения, загружающегося в браузер.
Вопрос: Как организовать работу пользователя с PDF документами в браузере?
Был бы рад получить любую полезную информацию, прямо или косвенно относящиеся к поставленной задаче: Java PDF фреймворки, аналоги, принципиальные проблемы в реализации, средства реализации клиентской части, в общем все что как-то сюда относится.
Есть предполагаемые решение:
1) Java applet — сомневаюсь,технология забытая, стоит ли?
2) Использование аналогов applet'оа — Какие есть и как из можно использовать? жду проблем с расширением функциональности...
3) Использование JS движка — есть ли что подобное, кто знает?
4) Самостоятельная реализация подобного вьювера — сильно глупая идея?
Возможно ли вообще реализовать это команде из 2х человек за 2-3 месяца?
On 25.04.2012 12:30, Oleg Vladimirov wrote:
> Шаг 1: Создание шаблона документа — Пользователь загружает пример > документа, размечает его, и сохраняет эту разметку как шаблон.
"Размечает" как — рисует рамочки вокруг нужных строк?
> Требования к реализации: Система должна быть реализована в виде веб > приложения, загружающегося в браузер. > > Вопрос: Как организовать работу пользователя с PDF документами в браузере?
Никак. Вся работа с документами должна быть на сервере, в браузере
только интерактив (выбор шаблона и файла для загрузки на сервер,
разметка шаблона).
> Был бы рад получить любую полезную информацию, прямо или косвенно > относящиеся к поставленной задаче: Java PDF фреймворки, аналоги, > принципиальные проблемы в реализации, средства реализации клиентской > части, в общем все что как-то сюда относится.
Поскольку PDF — формат, ориентированный на печать, то самый лёгкий (на
мой взгляд) способ решения этой задачи такой:
1. Ищем решение для перегона PDF в Image (JPG/PNG/etc.). Оно должно
найтись легко.
2. Шаблон документа — загрузка на сервер — преобразование в картинку —
возврат картинки на клиента — интерактивное выделение "значимых
областей" и их именование на клиенте — сохранение инфы на сервере.
3. Документ — загрузка на сервер — выделение и парсинг областей: либо
картинка — OCR сервис (звучит коряво, но возможно будет более надёжно)
либо можно попытаться применить что-нибудь вроде itext
(http://itextpdf.com/), но он по опыту использования — несколько глючноват.
> Возможно ли вообще реализовать это команде из 2х человек за 2-3 месяца?
Для простых документов — думаю что да. Но дальше могут начаться нюансы.
Здравствуйте, hrensgory, Вы писали:
H>"Размечает" как — рисует рамочки вокруг нужных строк?
Именно так.
H>1. Ищем решение для перегона PDF в Image (JPG/PNG/etc.). Оно должно H>найтись легко. H>2. Шаблон документа — загрузка на сервер — преобразование в картинку — H>возврат картинки на клиента — интерактивное выделение "значимых H>областей" и их именование на клиенте — сохранение инфы на сервере. H>3. Документ — загрузка на сервер — выделение и парсинг областей: либо H>картинка — OCR сервис (звучит коряво, но возможно будет более надёжно) H>либо можно попытаться применить что-нибудь вроде itext H>(http://itextpdf.com/), но он по опыту использования — несколько глючноват.
Большое спасибо за идею, но я все-таки склоняюсь к варианту с апплетом, к обработке документа на клиенте и отправке на сервер результата.
Вот только сомневаюсь в использование апплетов. Может кто оставит мнение об аналогах для решения этой задачи? Flesh, Silverlight, может COM объекты...
H>-- H>WBR, H>Serge.
Здравствуйте, Oleg Vladimirov, Вы писали:
OV>Большое спасибо за идею, но я все-таки склоняюсь к варианту с апплетом, к обработке документа на клиенте и отправке на сервер результата.
OV>Вот только сомневаюсь в использование апплетов. Может кто оставит мнение об аналогах для решения этой задачи? Flesh, Silverlight, может COM объекты...
Как альтернативу апплету посмотрите JavaWebStart — это механизм доставки/запуска (и не только) десктопного Java приложения на клиента через Web (т.е. пользователь загружает его просто щелкая на линк на странице). JWS содержит много полезных вещей, например, автоматическое обновление версий приложения с сервера когда вы на сервере развернёте новую версию. Из минусов JWS, как впрочем, и апплета — куча библиотек которые используются приложением тянутся на клиента. Но, в общем то, это минус не JWS а подхода который вы собираетесь использовать — толстого клиента.
On 27.04.2012 16:41, Oleg Vladimirov wrote: > Большое спасибо за идею, но я все-таки склоняюсь к варианту с апплетом, > к обработке документа на клиенте и отправке на сервер результата. > > Вот только сомневаюсь в использование апплетов. Может кто оставит мнение > об аналогах для решения этой задачи? Flesh, Silverlight, может COM > объекты...
Это зависит от условий эксплуатации вашего приложения — если обработкой
документов будет заниматься один человек на специально выделенной
машине, где будут установлены конкретные версии ОС, браузера и
необходимых компонентов и библиотек (JRE/Flash/Silerlight/etc.), то это
вполне жизнеспособное решение.
В противном случае вас ожидает неиллюзорный гемор с поддержкой в стиле
"ваша программа не работает".
Теоретически, если можно пользовать COM-объекты и предъявлять любые
требования к клиентскому софту, можно попробовать заюзать библиотеки
Акробата — http://www.adobe.com/devnet/pdf/library.html