Здравствуйте, HaPK, Вы писали:
HPK>Я думаю для каждого слова сделать список всех документов, в котором оно встречается. Потом делать объединение / пересечение списков, если поиск ведется по нескольким словам. Там же можно и релевантность определять (подсчитывать вес каждого документа).
Правильной дорогой идете, товарищи

Посмотрите
здесь
Еще в гугле можно поискать по запросу "инвертированные файлы".
HPK>База сравнительно небольшая, поэтому я думаю реализовать индексирование текстовых данных руками. Просто подумал, может кто-то знает / видел / делал что-то подобное.
Делать-то делал, только все равно алгоритмы придется "затачивать" под конкретные задачи. Универсальный вариант — инвертированные файлы. Если база небольшая — проблем быть не должно.
Если появятся какие-то вопросы — пишите лучше на e-mail. Я этим вопросом занимался одно время достаточноо плотно, кое-какие наработки есть.
... << RSDN@Home 1.1.4 @@subversion >>