Résumé |
Ce travail de thèse traite de la modélisation de sons instrumentaux dans un contexte d'interaction musicale entre un interprète et une partie électronique. Lorsque cette interaction implique l'extraction d'informations symboliques, les modèles existants font le plus souvent l'hypothèse que le signal est structuré en notes, définies par leurs valeurs de hauteur, durée et intensité. Cependant, cette représentation ne permet pas de rendre compte de vocabulaires instrumentaux plus contemporains qui, à travers l'emploi de modes de jeu particuliers, explorent d'autres dimensions musicales, notamment timbrales et temporelles. Plutôt que d'entreprendre la modélisation exhaustive des sonorités instrumentales contemporaines, nous proposons de considérer qu'un vocabulaire de gestes sonores peut être représenté par une combinaison de profils caractéristiques sur plusieurs dimensions perceptives. Un geste sonore est alors modélisé par des trajectoires sur plusieurs flux de descripteurs audio qui approchent ces dimensions. Dans un cadre Bayésien, nous étudions une modélisation en plusieurs flux, capable de prendre en compte l'asynchronie entre plusieurs processus cachés, ainsi que la dépendance statistique entre descripteurs. Sur chaque flux, nous proposons ensuite de modéliser les trajectoires avec des modèles segmentaux dont la structure permet de mieux rendre compte des durées et des corrélations entre observations successives que les modèles dont les observations se limitent à l'échelle d'une trame temporelle. Nous examinons ensuite le lien entre topologie de modèle et décodage en temps réel, notamment en termes de compromis précision/latence. Les évaluations sont menées sur plusieurs bases de données synthétiques ainsi que sur une base de données de sons de violon, constituée au cours de nos travaux. |