Ircam-Centre Pompidou

Recherche

Recherche simple

Recherche avancée

Panier électronique

Votre panier ne contient aucune notice

Connexion à la base

(Identifiez-vous pour accéder aux fonctions de mise à jour. Utilisez votre login-password de courrier électronique)

Entrepôt OAI-PMH

Soumettre une requête

	Consulter la notice détaillée
	Version complète en ligne
	Version complète en ligne accessible uniquement depuis l'Ircam
	Ajouter la notice au panier
	Retirer la notice du panier

English version

(full translation not yet available)

Liste complète des articles

Consultation des notices

Vue détaillée

Catégorie de document	Thèse
Titre	Segmentation et indexation des signaux sonores musicaux
Auteur principal	Stéphane Rossignol
Discipline	Acoustique traitement du signal et informatique appliqués à la musique
Université ou établissement	Jussieu
Directeur	Xavier Rodet
Copyright	Ircam
Année	2000
Statut éditorial	Non publié
Résumé	Ce travail concerne la segmentation et l'indexation des signaux sonores musicaux. Trois niveaux de segmentation interdépendants sont définis, correspondant chacun à un niveau de description du son différent. 1) Le premier niveau, appelé << sources >>, concerne la distinction entre la parole et la musique. Les sons considérés peuvent provenir par exemple de bandes-son de films ou d'émissions radiophoniques. Des fonctions d'observation sont étudiées, qui tentent de mettre en évidence les propriétés différentes du signal de parole et du signal de musique. Plusieurs méthodes de classification ont été étudiées. Les performances du système avec des signaux réels sont discutées. 2) Le deuxime niveau, appelé << caractéristiques >>, concerne ce type d'index : silence/son, voisé/non voisé, harmonique/inharmonique, monophonique/polyphonique, avec vibrato/sans vibrato. La plupart de ces caractéristiques donnent lieu à des fonctions d'observation utilisées par le troisième niveau. La détection du vibrato, l'estimation de ses paramètres (fréquence et amplitude) et sa suppression du trajet de f0 ont été particulièrement étudiées. Un ensemble de techniques sont décrites. Les performances de ces techniques avec des sons réels sont discutées. Le vibrato est supprimé du trajet de f0 original afin d'obtenir une ligne mélodique << lissée >>. Alors, ce nouveau trajet de f0 peut être utilisé pour la segmentation en notes (troisième niveau) des extraits musicaux, et peut aussi être utilisé pour des modifications de ces sons. La détection du vibrato est opérée seulement si lors du premier niveau de la musique a été détectée. 3) Le troisième niveau concerne la segmentation en << notes ou en phones ou plus généralement en parties stables >>, suivant la nature du son considéré : instrumental, voix chantée, parole, son percussif... L'analyse est composée de quatre étapes. La première consiste à extraire un grand nombre de fonctions d'observation. Une fonction d'observation est d'autant plus appropriée qu'elle présente des pics grands et fins quand des transitions surviennent et que sa moyenne et sa variance restent petites pendant les zones stables. Trois types de transitions existent : celles en f0, celles en énergie et celles en contenu spectral. En deuxième lieu, chaque fonction d'observation est automatiquement seuillée. En troisième lieu, une fonction de décision finale, correspondant aux marques de segmentation, est construite à partir des fonctions d'observation seuillées. Finalement, pour les sons monophoniques et harmoniques, la transcription automatique est effectuée. Les performances du système avec des sons réels sont discutées. Les données obtenues pour un certain niveau sont utilisées par les niveaux de numéros d'ordre supérieurs afin d'améliorer leurs performances.
Mots-clés	Segmentation / Indexation / Vibrato / DécisionSeuillage automatique / Classification
Equipe	Analyse et synthèse sonores
Cote	Rossignol00a

© Ircam - Centre Pompidou 2005.