Обзорный материал нашел только на википедии, но тамошняя статья сконцентрирована на индексах для текстовых поисковоиков. У меня же мой домашний поисковик по mp3 и структура запроса несколько отличается — на вход вместо одного двух слов как в обычном посиковике будет подаваться набор из примерно 200 фич (MFCC коэффичиенты если кому интересно).
Посоветуйте пожалуйста книжку и\или статьи по данной тематике, можно английские.
p.s. те, кто писали поисковики just for fun поделитесь пожалуйста вашим опытом.
правильно ли я понимаю, что в поисковике есть три основные компоненты — паук для сбора информации, кластеризатор-построитель индекса и сообственно сам индекс? какая из этих частей самая сложная?
Re[2]: Посоветуйте учебник\статью про построение поискового
Здравствуйте, Nelud, Вы писали:
N>p.s. те, кто писали поисковики just for fun поделитесь пожалуйста вашим опытом. N>правильно ли я понимаю, что в поисковике есть три основные компоненты — паук для сбора информации, кластеризатор-построитель индекса и сообственно сам индекс? какая из этих частей самая сложная?
Здравствуйте, Nelud, Вы писали:
N>Обзорный материал нашел только на википедии, но тамошняя статья сконцентрирована на индексах для текстовых поисковоиков. У меня же мой домашний поисковик по mp3 и структура запроса несколько отличается — на вход вместо одного двух слов как в обычном посиковике будет подаваться набор из примерно 200 фич (MFCC коэффичиенты если кому интересно).
А если не секрет, что ты запихал в аж 200 фич? В распознавании голоса обычно используется порядка 30 фич на вектор(MFCC/LPC + delta coefficients + delta-delta coefficients)
--
Sergey Chadov
... << RSDN@Home 1.2.0 alpha rev. 685>>
Re[2]: Посоветуйте учебник\статью про построение поискового
Здравствуйте, Sergey Chadov, Вы писали:
SC>А если не секрет, что ты запихал в аж 200 фич? В распознавании голоса обычно используется порядка 30 фич на вектор(MFCC/LPC + delta coefficients + delta-delta coefficients)
Беру 10-20 небольших участков песни и для каждого считаю MFCC. MFCC беру по 15 штук ибо как я понял, в [Mel Frequency Cepstral Coefficients: An Evaluation of Robustness of MP3 Encoded Music] написано что более 15 уже не так робастно.
Спасибо за наводку, про дельты не знал, сейчас пойду почитаю.
Re[3]: Посоветуйте учебник\статью про построение поискового
Здравствуйте, Nelud, Вы писали:
SC>>А если не секрет, что ты запихал в аж 200 фич? В распознавании голоса обычно используется порядка 30 фич на вектор(MFCC/LPC + delta coefficients + delta-delta coefficients)
N>Беру 10-20 небольших участков песни и для каждого считаю MFCC. MFCC беру по 15 штук ибо как я понял,
А, я не так понял. Я думал 200 на вектор. А у тебя двести всего. Тогда вопрос снимается.
N> в [Mel Frequency Cepstral Coefficients: An Evaluation of Robustness of MP3 Encoded Music] написано что более 15 уже не так робастно. N>Спасибо за наводку, про дельты не знал, сейчас пойду почитаю.
Да нечего там читать, это первая и вторая производные MFCC. Могут оказаться полезными, а могут и нет — завасит от задачи. В распознавании человека по голосу — практически стандартный подход.
--
Sergey Chadov
... << RSDN@Home 1.2.0 alpha rev. 685>>
Re[4]: Посоветуйте учебник\статью про построение поискового