__>>Вообще-то есть еще такое понятие, как хэширование... F_I>Ну да, и каждую новую копию песни, сжатую другим кодеком, или имеющую малейшие шумовые искажения считать новой...
Как-то ты сам себе противоречешь. Не ты ли постом выше собирался побайтово сравнивать файл с базой? Насчет кодеков — не уверен, что их бесчисленное множество, так что тут просто вопрос полноты индексации.
F_I>-По поводу кусков: F_I>а)нет никаких гарантий, что в самой базе находятся полные версии композиций
А это и не нужно, если сравнивать файл характерными частями (отдельный вопрос об их выборе для конкретной композиции), то полные версии не нужны никогда
F_I>б)5с гдето в середине могут оказаться практически идентичными у тысяч "композиций" (нынешняя эстрада не блещет оригинальностью)
Могу, конечно, тогда пользователь просто увидит менее релевантные ссылки. Кстати то же замечание справедливо и для текстового поиска, т.к. тексты еще менее оригинальны.
F_I>-если использовать поэлементное сравнение, то результат точнее (тем более что элементов-то не так и много)
Опять противоречие с твоим первым замечанием
F_I>Прийдется: отпечаток каждого обработанного звукового файла должен хранится в базе, а будит-ли он сопоставлятся со ссылкой — дело десятое (главное теги хранить — пользователь ведь именно их хочет узнать, отправляя на обработку свой файл)
Утверждение не обосновано. Зачем хранить у себя в БД то, что и так доступно по сети? А если по сети не доступно, то и индексация по такому битому ресурсу не нужна.
F_I>Согласен, что запущено. Но тратить время на продумывание и устранение этой проблемы у меня нет желания (по крайней мере сейчас) — и по-важнее дела есть. В конце концов, на реализацию этой системы, у меня уйдет хз сколько времени, а в природе уже и готовые аналоги есть...
А вроде никто и не заставляет тебя тратить свое драгоценное время. А насчет готовых аналогов я бы сильно поспорил — их нет ИМХО, или они хорошо скрываются.
Как известно, 90% людей верят утверждениям, начинающимся со слов «как известно».