Résumé |
Ce travail s’inscrit dans la lignée des travaux de la communauté MIR (Music Information Retrieval) sur les mesures algorithmique de similarité acoustique entre des sons. L’originalité de ce travail est de se baser sur le modèle STRF (spectro-temporal receptive fields), un modèle neuro-inspiré et qui donne des valeurs réparties dans quatre domaines physiques : le temps, la fréquence (comme le classique spectrogramme), mais aussi les scales (comme les MFCCs) et les rates (taux de modulation temporelle). Nous montrons que le modèle STRF est en fait une méta-représentation à partir de laquelle la plupart des autres représentations acoustiques classiques du MIR peuvent être dérivées. En appliquant des méthodes de réduction de dimension et des techniques fondamentales du traitement du signal et du machine learning, nous construisons et évaluons au total 88 algorithmes différents pour mesurer des distances entre les STRFs de paires de sons. Notre meilleur algorithme, baptisé “cepstral dynamic frequency warping” donne une précision de 90.9% sur notre base de données de sons courts environnementaux, dépassant de près de 20% la seule proposition existante qui utilise les STRFs (Patil et al., 2012), et avoisinant le résultat d’un algorithme appliquant une distance de kernel gaussien sur des MFCCs qui est de 92,3%. Ce travail fournit donc une alternative complètement neuro-inspirée aux classiques MFCCs (beaucoup critiqués pour ne pas l’être), premier pas important pour établir un dialogue interdisciplinaire entre MIR et les sciences cognitives. |