F_I>Тогда поиск будет вестись довольно долго — в худшем случае минут сорок. С такими объемами время самого опознания роли особой не играет, поскольку отпечатки "опознаются" практически прямым сравнением: если есть 20с отрывок, то необходимо найти примерно 7кб, максимально коррелирующих с искомым отпечатком, данных (это не намного более трудоемкая задача, чем поиск строки в тексте).
Вообще-то есть еще такое понятие, как хэширование. Достаточно в БД хранить указатель на контент (возможно одновременно с хранением небольшого отрывка мелодии или небольшой копии изображения) + его хэш ключ (можно применять 256 или 512 битный хэш). Тогда из искомой мелодии получаем хэш ключ и просто индексируем его в нашей БД. Это, заметьте, уже порядка нескольких секунд, особенно, если для поиска использовать многопроцессорную систему (задача ведь легко распараллеливается, т.к. по сути это бинарный поиск). Но вообще говоря это очень примитивный подход. У меня появляются более реалистичные идеи поиска по мультимедии. Например, можно мелодии разбивать на определенные составляющие, как то: ритм, частотную характеристику и т.п. далее в искомой мелодии выделять тот же набор параметров и начинать поиск по соответствующей БД с использованием хэша. Можно искать мелодии не целиком по контенту, а по отдельным кускам (например, 3 секунда начала, 5 секунд середина, 2-3 секунды конец). Соответственно можно выдавать похожие мелодии, у которых могут совпадать не все части с искомой мелодией — это уже будет поиск с произвольной релевантностью. Для картинок можно строить гистаграммы, а также выделять основные кластеры изображения по которым так же осуществлять неточный поиск в БД. Причем, такой поиск не будет занимать ощутимого времени.
F_I>А вот накопление 100Тб базы — как раз оччень медленный процесс.
накапливать 100Тб базы, разумеется не придется — база будет содержать в лучшем случае небольшие отрывки и ссылки на индексируемые ресурсы. Но, конечно сама индексация может быть долгим процессом. Но то же утверждение верно и для текстовых поисковиков. Причем, если вдуматься объем БД для полнотекстного поиска может даже превышать объем БД для поиска музыки, т.к. традиционно в интернете преобладает текстовый контент. И потому объемы текста весьма велики.
Как известно, 90% людей верят утверждениям, начинающимся со слов «как известно».