Некоторый контингент занимается написанием статей разного толка. Есть потребность поиска референсов, прямых, косвенных и всевозможных отсылок к первоисточникам. Существует небольшая база документов, около 100-200gb, на них то и ссылаются эти самые референсы. Необходимо по некоторому документу, обычно это произвольный текст, найти референсы на документу и сгенерировать соответствующие ссылки. Референс это устоявшаяся аббревиатура, код, цитата или что навроде.
Получается примерно так — по документу сгенерировать "список используемой литературы" и расставить ссылки.
Пока что речь о прототипе. Мне нужно понять примерно следующее
0. Какие есть известные проблемы в этой области
1. какими методами можно решить задачу (совсем необязательно нлп, мб. какие то известные эвристики)
2. известные технологии индексирования, поиска, хранения для всей этой кунсткамеры
3. приблизительная архитектура системы