Поиск референсов и генерация ссылок на документы
От: Ikemefula Беларусь http://blogs.rsdn.org/ikemefula
Дата: 22.12.17 10:33
Оценка:
Некоторый контингент занимается написанием статей разного толка. Есть потребность поиска референсов, прямых, косвенных и всевозможных отсылок к первоисточникам. Существует небольшая база документов, около 100-200gb, на них то и ссылаются эти самые референсы. Необходимо по некоторому документу, обычно это произвольный текст, найти референсы на документу и сгенерировать соответствующие ссылки. Референс это устоявшаяся аббревиатура, код, цитата или что навроде.
Получается примерно так — по документу сгенерировать "список используемой литературы" и расставить ссылки.

Пока что речь о прототипе. Мне нужно понять примерно следующее
0. Какие есть известные проблемы в этой области
1. какими методами можно решить задачу (совсем необязательно нлп, мб. какие то известные эвристики)
2. известные технологии индексирования, поиска, хранения для всей этой кунсткамеры
3. приблизительная архитектура системы

Мб. у кого есть какие соображения, ссылки и тд ?
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.