Здравствуйте, Sergey Chadov, Вы писали:
SC>А если не секрет, что ты запихал в аж 200 фич? В распознавании голоса обычно используется порядка 30 фич на вектор(MFCC/LPC + delta coefficients + delta-delta coefficients)
Беру 10-20 небольших участков песни и для каждого считаю MFCC. MFCC беру по 15 штук ибо как я понял, в [Mel Frequency Cepstral Coefficients: An Evaluation of Robustness of MP3 Encoded Music] написано что более 15 уже не так робастно.
Спасибо за наводку, про дельты не знал, сейчас пойду почитаю.