Анализ и разбор документов
От: Аноним  
Дата: 23.09.10 06:58
Оценка:
Добрый день.
Имеется куча документов в электронном виде (допустим это исключительно html странички. Есть и вордовские и прочие, но не суть)
Так вот информация представлена в свободной форме. Нужно извлекать определенную информацию (адреса, суммы, даты,...)
Никогда ничего в этой области не делал, потому просьба по направлению меня на путь истинный (ключевые слова для поиска алгоритмов и т.п.).
Собственно как парсить документы? Обычно данные организованы в виде таблицы название-значение:
Наименование абырвалг
Дата 23.09.10
Адрес Москва, ул. Ленина, 26
Только вот это всё может и пробелами и табуляцией организовываться и "честными" таблицами. Ну и соответственно где-то двоеточия стоят, где-то нет... Как всё это дело правильно парсить я не представляю. Нужен толчок в нужном направлении.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.