Résumé |
Ce travail concerne la segmentation et l'indexation des
signaux sonores musicaux. Trois niveaux de segmentation
interdépendants sont définis, correspondant chacun à un
niveau de description du son différent.
1) Le premier niveau, appelé << sources >>, concerne la
distinction entre la parole et la musique. Les sons
considérés peuvent provenir par exemple de bandes-son de
films ou d'émissions radiophoniques.
Des fonctions d'observation sont étudiées, qui tentent de
mettre en évidence les propriétés différentes du signal de
parole et du signal de musique. Plusieurs méthodes de
classification ont été étudiées. Les performances du
système avec des signaux réels sont discutées.
2) Le deuxime niveau, appelé << caractéristiques >>,
concerne ce type d'index : silence/son, voisé/non voisé,
harmonique/inharmonique, monophonique/polyphonique, avec
vibrato/sans vibrato. La plupart de ces caractéristiques
donnent lieu à des fonctions d'observation utilisées par
le troisième niveau.
La détection du vibrato, l'estimation de ses paramètres
(fréquence et amplitude) et sa suppression du trajet de
f0 ont été particulièrement étudiées. Un ensemble de
techniques sont décrites. Les performances de ces
techniques avec des sons réels sont discutées.
Le vibrato est supprimé du trajet de f0 original afin
d'obtenir une ligne mélodique << lissée >>. Alors, ce
nouveau trajet de f0 peut être utilisé pour la segmentation
en notes (troisième niveau) des extraits musicaux, et peut
aussi être utilisé pour des modifications de ces sons.
La détection du vibrato est opérée seulement si lors du
premier niveau de la musique a été détectée.
3) Le troisième niveau concerne la segmentation en
<< notes ou en phones ou plus généralement en parties
stables >>, suivant la nature du son considéré :
instrumental, voix chantée, parole, son percussif...
L'analyse est composée de quatre étapes. La première
consiste à extraire un grand nombre de fonctions
d'observation. Une fonction d'observation est d'autant
plus appropriée qu'elle présente des pics grands et fins
quand des transitions surviennent et que sa moyenne et sa
variance restent petites pendant les zones stables. Trois
types de transitions existent : celles en f0, celles en
énergie et celles en contenu spectral. En deuxième lieu,
chaque fonction d'observation est automatiquement
seuillée. En troisième lieu, une fonction de décision
finale, correspondant aux marques de segmentation, est
construite à partir des fonctions d'observation seuillées.
Finalement, pour les sons monophoniques et harmoniques, la
transcription automatique est effectuée. Les performances
du système avec des sons réels sont discutées.
Les données obtenues pour un certain niveau sont utilisées
par les niveaux de numéros d'ordre supérieurs afin
d'améliorer leurs performances.
|