Re: Проектирование PDF экстрактора
От: hrensgory Россия  
Дата: 25.04.12 10:04
Оценка:
On 25.04.2012 12:30, Oleg Vladimirov wrote:

> Шаг 1: Создание шаблона документа — Пользователь загружает пример

> документа, размечает его, и сохраняет эту разметку как шаблон.

"Размечает" как — рисует рамочки вокруг нужных строк?

> Требования к реализации: Система должна быть реализована в виде веб

> приложения, загружающегося в браузер.
>
> Вопрос: Как организовать работу пользователя с PDF документами в браузере?

Никак. Вся работа с документами должна быть на сервере, в браузере
только интерактив (выбор шаблона и файла для загрузки на сервер,
разметка шаблона).

> Был бы рад получить любую полезную информацию, прямо или косвенно

> относящиеся к поставленной задаче: Java PDF фреймворки, аналоги,
> принципиальные проблемы в реализации, средства реализации клиентской
> части, в общем все что как-то сюда относится.

Поскольку PDF — формат, ориентированный на печать, то самый лёгкий (на
мой взгляд) способ решения этой задачи такой:

1. Ищем решение для перегона PDF в Image (JPG/PNG/etc.). Оно должно
найтись легко.
2. Шаблон документа — загрузка на сервер — преобразование в картинку —
возврат картинки на клиента — интерактивное выделение "значимых
областей" и их именование на клиенте — сохранение инфы на сервере.
3. Документ — загрузка на сервер — выделение и парсинг областей: либо
картинка — OCR сервис (звучит коряво, но возможно будет более надёжно)
либо можно попытаться применить что-нибудь вроде itext
(http://itextpdf.com/), но он по опыту использования — несколько глючноват.

> Возможно ли вообще реализовать это команде из 2х человек за 2-3 месяца?


Для простых документов — думаю что да. Но дальше могут начаться нюансы.

--
WBR,
Serge.
Posted via RSDN NNTP Server 2.1 beta
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.