Индекс для полнотекстового поиска
От: BlackEric http://black-eric.lj.ru
Дата: 19.03.24 19:41
Оценка:
Положим есть очень большое файловое хранилище. Разнородное. ~50 TB. Считаем что оно только для чтения.
В нем файлы различных типов. И мы умеем извлекать из них текст.

Собственно вопрос: как организовать индекс по какому будет идти поиск, что бы он имел минимальный размер?
Хотя бы укладывался в 5% объема текста файлов. Понятно что рядом с индексом нужно хранить пути к файлам где этот текст содержится.

Что читать по теме?

Спасибо.
https://github.com/BlackEric001
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.