Положим есть очень большое файловое хранилище. Разнородное. ~50 TB. Считаем что оно только для чтения.
В нем файлы различных типов. И мы умеем извлекать из них текст.
Собственно вопрос: как организовать индекс по какому будет идти поиск, что бы он имел минимальный размер?
Хотя бы укладывался в 5% объема текста файлов. Понятно что рядом с индексом нужно хранить пути к файлам где этот текст содержится.