Посоветуйте учебник\статью про построение поискового индекса
От: Nelud  
Дата: 30.06.08 22:26
Оценка:
Обзорный материал нашел только на википедии, но тамошняя статья сконцентрирована на индексах для текстовых поисковоиков. У меня же мой домашний поисковик по mp3 и структура запроса несколько отличается — на вход вместо одного двух слов как в обычном посиковике будет подаваться набор из примерно 200 фич (MFCC коэффичиенты если кому интересно).
Посоветуйте пожалуйста книжку и\или статьи по данной тематике, можно английские.
search index
Re: Посоветуйте учебник\статью про построение поискового инд
От: Nelud  
Дата: 30.06.08 22:55
Оценка:
p.s. те, кто писали поисковики just for fun поделитесь пожалуйста вашим опытом.
правильно ли я понимаю, что в поисковике есть три основные компоненты — паук для сбора информации, кластеризатор-построитель индекса и сообственно сам индекс? какая из этих частей самая сложная?
Re[2]: Посоветуйте учебник\статью про построение поискового
От: ryf  
Дата: 30.06.08 23:32
Оценка: 5 (1)
Здравствуйте, Nelud, Вы писали:

N>p.s. те, кто писали поисковики just for fun поделитесь пожалуйста вашим опытом.

N>правильно ли я понимаю, что в поисковике есть три основные компоненты — паук для сбора информации, кластеризатор-построитель индекса и сообственно сам индекс? какая из этих частей самая сложная?

http://company.yandex.ru/articles/article10.xml

тоже самое http://www.smotrite.ru/s28.shtml но с картинками ( у яндекса они отъехали куда-то )
Re: Посоветуйте учебник\статью про построение поискового инд
От: Sergey Chadov Россия  
Дата: 01.07.08 16:07
Оценка:
Здравствуйте, Nelud, Вы писали:

N>Обзорный материал нашел только на википедии, но тамошняя статья сконцентрирована на индексах для текстовых поисковоиков. У меня же мой домашний поисковик по mp3 и структура запроса несколько отличается — на вход вместо одного двух слов как в обычном посиковике будет подаваться набор из примерно 200 фич (MFCC коэффичиенты если кому интересно).


А если не секрет, что ты запихал в аж 200 фич? В распознавании голоса обычно используется порядка 30 фич на вектор(MFCC/LPC + delta coefficients + delta-delta coefficients)
--
Sergey Chadov

... << RSDN@Home 1.2.0 alpha rev. 685>>
Re[2]: Посоветуйте учебник\статью про построение поискового
От: Nelud  
Дата: 01.07.08 18:59
Оценка:
Здравствуйте, Sergey Chadov, Вы писали:

SC>А если не секрет, что ты запихал в аж 200 фич? В распознавании голоса обычно используется порядка 30 фич на вектор(MFCC/LPC + delta coefficients + delta-delta coefficients)


Беру 10-20 небольших участков песни и для каждого считаю MFCC. MFCC беру по 15 штук ибо как я понял, в [Mel Frequency Cepstral Coefficients: An Evaluation of Robustness of MP3 Encoded Music] написано что более 15 уже не так робастно.
Спасибо за наводку, про дельты не знал, сейчас пойду почитаю.
Re[3]: Посоветуйте учебник\статью про построение поискового
От: Sergey Chadov Россия  
Дата: 01.07.08 19:12
Оценка:
Здравствуйте, Nelud, Вы писали:

SC>>А если не секрет, что ты запихал в аж 200 фич? В распознавании голоса обычно используется порядка 30 фич на вектор(MFCC/LPC + delta coefficients + delta-delta coefficients)


N>Беру 10-20 небольших участков песни и для каждого считаю MFCC. MFCC беру по 15 штук ибо как я понял,

А, я не так понял. Я думал 200 на вектор. А у тебя двести всего. Тогда вопрос снимается.

N> в [Mel Frequency Cepstral Coefficients: An Evaluation of Robustness of MP3 Encoded Music] написано что более 15 уже не так робастно.

N>Спасибо за наводку, про дельты не знал, сейчас пойду почитаю.
Да нечего там читать, это первая и вторая производные MFCC. Могут оказаться полезными, а могут и нет — завасит от задачи. В распознавании человека по голосу — практически стандартный подход.
--
Sergey Chadov

... << RSDN@Home 1.2.0 alpha rev. 685>>
Re[4]: Посоветуйте учебник\статью про построение поискового
От: Nelud  
Дата: 02.07.08 21:09
Оценка:
Что бы два раза не вставать: а какую метрику вы используете?
Re[5]: Посоветуйте учебник\статью про построение поискового
От: Sergey Chadov Россия  
Дата: 03.07.08 15:54
Оценка:
Здравствуйте, Nelud, Вы писали:

N>Что бы два раза не вставать: а какую метрику вы используете?


Евклидову
--
Sergey Chadov

... << RSDN@Home 1.2.0 alpha rev. 685>>
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.