Serveur © IRCAM - CENTRE POMPIDOU 1996-2005.
Tous droits réservés pour tous pays. All rights reserved.

Le Spatialisateur

Jean-Marc Jot, Olivier Warusfel

GRAME, 1995
Copyright © GRAME 1995

Resumé :

Le Spatialisateur est un processeur d'acoustique virtuelle qui offre au compositeur, à l'interprète ou a l'ingénieur du son la possibilité de controler ou de reproduire la localisation des sources sonores et la projection des sons dans un espace sonore reel ou virtuel. Il peut etre configure pour differents formats de reproduction et permet un controle perceptif de l'effet reproduit.

1. Introduction

Le projet Spatialisateur est issu des recherches menees a l'Ircam sur la caracterisation objective et perceptive de la qualite acoustique des salles, ainsi que des travaux d'Espaces Nouveaux sur la reproduction tridimensionnelle des environnements sonores. Le projet incorpore en outre les resultats de recherches effectuees a Telecom Paris sur les algorithmes audio-numeriques de spatialisation et de reverberation artificielle.
Le Spatialisateur a ete developpe a l'aide du logiciel Max, environnement oriente objet pour la programmation d'applications de traitement du signal en temps reel, sur la Station d'Informatique Musicale de l'Ircam. Il est disponible sous la forme d'un objet Max appele Spat~ realisant un processeur spatial configurable qui integre la localisation des sources sonores et la reproduction de l'effet de salle (reflexions et reverberation). Le logiciel etant concu suivant une structure modulaire, il peut etre considere comme une application complete ou comme une librairie d'objets elementaires pour le traitement spatial des sons en temps reel (reverberateur artificiel, potentiometre panoramique multi-canaux, egaliseur parametrique, etc...).

2. Fonctionnalites du processeur

Le Spatialisateur recoit les signaux provenant de sources sonores instrumentales ou synthetiques (supposes denues de reverberation), et fournit les signaux prets a alimenter chaque haut-parleur du dispositif de reproduction. L'approche generale adoptee dans le projet peut se caracteriser par le fait qu'elle permet a l'utilisateur de specifier l'effet desire du point de vue de l'auditeur plutot que du point de vue du traitement realise ou du dispositif utilise. Cela se traduit par trois caracteristiques essentielles :

Integration des traitements directionnels et temporels dans un meme processeur.
Adaptation du traitement au contexte de reproduction et de prise de son.
Interface de commande fondee sur une approche perceptive.

2.1. Structure du traitement

Le Spatialisateur integre dans un meme processeur les effets temporels (reverberation artificielle) et les effets directionnels (localisation des sources sonores et distribution spatiale de l'effet de salle). Cela permet de depasser les limitations qu'impliquent les architectures heterogenes ou la localisation des sources virtuelles et l'effet de reverberation sont reproduits a l'aide d'unites independantes (par exemple l'association d'une console de mixage et d'unites de reverberation externes).
Cette integration des traitements permet, notamment, un controle plus precis et plus intuitif de la distance apparente des sources sonores (effet de profondeur, creation de plans sonores). De ce point de vue, Spat~ peut etre considere comme une extension du systeme concu par John Chowning [Chowning 1970]. Chaque processeur Spat~ realise le traitement d'une source sonore, et est divise en quatre modules principaux :

Source~ : module de pre-traitement du ou des signaux d'entree, incluant egalisation, simulation de l'effet Doppler et de l'absorption de l'air.
Room~ : reverberateur multi-canaux permettant la synthese et le controle de l'effet de salle en temps reel. Ce module est base sur des algorithmes de traitement du signal concus a Telecom Paris [Jot 92] (license France Telecom).
Pan~ : module de repartition directionnelle des signaux primaires et des signaux de reverberation, permettant le controle de la direction apparente de la source sonore, en fonction du dispositif de reproduction utilise.
Out~ : module d'egalisation des signaux de sortie.

2.2. Configurabilite en fonction du contexte de reproduction

La structure du module Room~ est independante du systeme de reproduction. Ses signaux de sortie sont transmis au module Pan~, qui produit un signal alimentant chaque canal du dispositif de diffusion. Ce module de repartition directionnelle existe en plusieurs versions adaptees a differents formats de reproduction :

Stereophonie conventionnelle sur deux canaux, incluant la simulation d'une prise de son stereophonique a l'aide d'une paire de microphones coincidents ou non-coincidents.
Stereophonie 3/2 : format derive des sytemes multicanaux utilises dans l'industrie cinematographique, comportant, outre les deux canaux lateraux, un canal central ameliorant la stabilite des images sonores frontales, et deux canaux arrieres pour la reproduction des signaux d'ambiance et de reverberation [Thiele 1993].
Systemes de reproduction multicanaux permettant une reproduction de toutes les directions du plan horizontal, et comportant typiquement 4 a 8 haut-parleurs. Ce type de dispositif est adapte a une reproduction en studio ou dans un auditorium de taille moyenne.
Stereophonie tridimensionnelle sur ecouteurs (reproduction binaurale) ou sur une paire de haut-parleurs (reproduction transaurale). Dans ces modes, le Spatialisateur reproduit l'information acoustique qui serait captee a l'aide d'une tete artificielle ou de microphones inseres dans les conduits auditifs d'un individu. Le mode de reproduction transaural implique un traitement supplementaire supprimant l'effet des trajets acoustiques de chaque haut-parleur vers l'oreille opposee (voir [Jot & al. 1995] pour plus de details).

Dans chacun de ces modes, l'effet de salle synthetise en temps reel par le module Room~ est traite par le module Pan~ afin de controler la repartition directionnelle des reflexions et de la reverberation. Les signaux de sortie peuvent etre corriges a l'aide du module Out~ afin de compenser la reponse en frequence des haut-parleurs ou des ecouteurs, ainsi que les decalages temporels lies a la disposition des haut-parleurs dans la salle d'ecoute. Une fois le systeme configure pour le format de reproduction et la disposition de haut-parleurs consideres, l'effet reproduit peut etre specifie independament du contexte de reproduction et est, autant que possible, preserve d'un mode ou d'un lieu de reproduction a un autre.
Lorsque le lieu d'ecoute n'est pas acoustiquement neutre (ce qui est generalement le cas en concert), le Spatialisateur peut prendre en compte des mesures effectuees a une position d'ecoute de reference. Il realise alors automatiquement les corrections necessaires dans la synthese de l'effet de reverberation, de sorte que l'effet percu au point d'ecoute de reference soit le plus conforme possible a la specification de l'utilisateur. Une telle compensation est necessaire, par exemple, pour reproduire l'acoustique d'une salle dans une autre salle.

2.3. Interface de commande perceptive

Le processeur est muni d'une interface de commande "de haut-niveau" permettant de controler simultanement les differents etages du traitement realise dans Spat~. Cette commande n'est pas la reunion des parametres "de bas niveau" des modules composant le Spatialisateur, mais est fondee au contraire sur une description globale de l'effet percu. Son coeur est constitue par un module de controle perceptif derive de recherches effectuees a l'Ircam [Jullien & al. 1992, Warusfel 1990, Lavandier 1989].

2.3.1. Strategie de controle de la qualite acoustique

Le terme "qualite acoustique" est utilise ici pour decrire globalement les transformations subies par le message sonore emis par une source, avant sa reception par l'auditeur. Dans une situation naturelle presentant une source et un auditeur dans une salle, la qualite acoustique depend des facteurs suivants :

la geometrie et les proprietes acoustiques des parois de la salle et des obstacles
les positions de la source et de l'auditeur dans la salle
l'orientation et la directivite de la source

En presence de plusieurs sources de directivites, d'orientations ou de positions differentes dans une meme salle, la qualite acoustique ainsi definie est en general differente pour chaque source sonore. Dans un contexte de simulation, la qualite acoustique doit etre modifiee dynamiquement lorsque la source se deplace par rapport a l'auditeur, en distance ou en direction. Cette variation peut etre reproduite a l'aide d'un processeur spatial dont les parametres de traitement du signal sont calcules en temps reel a partir d'une description geometrique et physique -manipulee par l'utilisateur- de la salle virtuelle, de la source virtuelle et de l'auditeur [Moore 1983, Persterer 1989, Foster & al. 1991, Gardner 1992].
Un controle geometrique et physique de la qualite acoustique est possible en utilisant le modele de reverberation synthetise par le module Room~. Neanmoins, cette approche comporte un certain nombre d'inconvenients dans un contexte de production ou de creation musicale ou artistique :

Les parametres de controle de la qualite acoustique ne sont pas pertinents du point de vue perceptif : les effets auditifs d'une variation d'un parametre geometrique ou physique sont souvent imprevisibles (ou meme imperceptibles).
La mise a jour des parametres de traitement du signal en fonction des parametres physiques et geometriques necessite un processus de controle complexe (impliquant typiquement le calcul d'une distribution de sources images afin d'evaluer la distribution temporelle et directionnelle des reflexions).
Cette methode de controle est limitee a la reproduction de situations physiquement realisables. Meme si la salle simulee est imaginaire, les lois de la physique limitent l'eventail des qualites acoustiques possibles (par exemple, dans une salle de geometrie donnee, une modification des coefficients d'absorption des parois visant a modifier la duree de reverberation affectera simultanement le niveau de l'effet de salle).

L'approche adoptee dans le Spatialisateur permet de concevoir un processeur spatial qui ne repose pas sur une description physique et geometrique de l'environnement virtuel pour synthetiser l'effet de salle, et ou l'interface de controle proposee est, au contraire, directement reliee a la perception par l'auditeur de l'effet reproduit. Dans un contexte musical, cette approche permet de prendre en compte la qualite acoustique immediatement au stade de la composition, sans reference a un dispositif electroacoustique particulier ou au lieu ou l'oeuvre sera effectivement ecoutee. En outre, le cout de calcul du traitement realise en temps reel par le processeur peut ainsi etre minimise car il est consacre exclusivement a la reproduction et au controle d'attributs perceptivement pertinents.

2.3.2. Les facteurs perceptifs

Dans l'interface de controle perceptive, la qualite acoustique est decrite a l'aide d'un nombre reduit de facteurs perceptifs mutuellement independants, et dont chacun est relie a un critere objectivement mesurable caracterisant la transformation subie par le signal sonore. Ces relations permettent de traduire les facteurs perceptifs en parametres de traitement du signal, mais aussi de reproduire la qualite acoustique d'une salle existante. Par ailleurs, les facteurs perceptifs forment la base de description la plus pertinente pour le controle de processus d'interpolation dynamiques entre qualites acoustiques differentes. De tels processus trouvent leur application dans un contexte musical ou artistique, et peuvent aussi etre utilises dans un contexte de simulation ou de realite virtuelle.
Les facteurs perceptifs sont controles a l'aide de curseurs dont l'echelle de variation tient compte de la sensibilite moyenne des individus vis a vis de chacun d'entre eux. Trois facteurs perceptifs decrivent des effets caracteristiques de la salle (le critere objectif associe a chaque facteur est indique entre parentheses) :

reverberance tardive (temps de reverberation tardif)
lourdeur et vivacite (variation du temps de reverberation avec la frequence)

Les six autres facteurs decrivent des effets dependant de la position, de la directivite et de l'orientation de la source sonore. Les trois premiers sont percus comme des caracteristiques de la source sonore, tandis que les trois suivants sont perceptivements associes a la salle :

presence de la source (energie du son direct et de l'effet de salle precoce)
brillance et chaleur (variation de l'energie precoce avec la frequence)
presence de la salle (energie de l'effet de salle tardif)
reverberance precoce (temps de reverberation precoce)
enveloppement (energie de l'effet de salle precoce relativement au son direct)

Une variation de la presence de la source cree un effet convaincant de proximite ou d'eloignement. Le terme "reverberance" designe ici l'impression que le son est prolonge par la reverberation de la salle. La reverberance tardive se distingue de la reverberance precoce par le fait qu'elle est percue essentiellement lors d'interruptions du message sonore, tandis qu'une variation de la reverberance precoce reste au contraire perceptible lors d'un message sonore continu.

3. Applications

3.1. Production d'enregistrements

L'utilisation naturelle du Spatialisateur en studio consiste a inserer un processeur complet (reverberation artificielle comprise) dans chacune des voies d'une console ou d'un environnement logiciel de mixage numerique en temps reel. Cela permet une reproduction de l'effet de salle differenciant les sources sonores, et offre la possibilite d'un controle precis et intuitif de la distance apparente de chacune d'entre elles.
La reproduction transaurale fait depuis quelques annees son apparition dans les studios pour la production d'enregistrements bi-pistes offrant une restitution tridimensionnelle, depassant ainsi l'une des limitations inherentes a la stereophonie classique. La contrainte sur la position d'ecoute n'est pas diminuee par la reproduction transaurale, mais l'est en partie par la reproduction en format stereo-3/2. Ce format, qui privilegie quant a lui la reproduction des evenements sonores frontaux, est appele a se repandre au dela des frontieres de l'industrie cinematographique.
Dans le mode binaural / transaural (le plus couteux en traitement du signal) l'ensemble du traitement de spatialisation d'une source sonore necessite moins de 25 millions d'operations par seconde (soit moins de 500 additions/multiplications par echantillon, en supposant une frequence d'echantillonnage de 50 kHz) [Jot & al. 1995]. Ce chiffre correspond a la capacite des processeurs de traitement de signal programmables disponibles aujourd'hui sur le marche. Il est donc economiquement possible de realiser un systeme de mixage numerique en temps reel dont chaque voie est munie d'un processeur spatial incluant un algorithme de reverberation artificielle. Dans cette optique, la commande d'un jeu reduit d'attributs perceptifs independants est particulierement avantageuse du point de vue ergonomique.

3.2. Simulation, realite virtuelle

Les applications du domaine de la realite virtuelle ou des technologies multimedia (simulation d'environnements virtuels, telecommunications, interfaces homme-machine avancees) reposent, comme les applications precedentes, sur une architecture de mixage en temps reel. Ces applications, qui peuvent elles aussi necessiter la restitution de la distance des evenements sonores et la reconstruction d'un effet de salle differenciant les sources sonores, comportent souvent, contrairement aux precedentes, un aspect d'interactivite (ou l'auditeur joue a la fois le role d'emetteur et de recepteur).
La reproduction binaurale sur ecouteurs est particulierement bien adaptee a ce type d'applications, et peut etre combinee avec la synthese d'image pour immerger un spectateur dans un environnement virtuel. L'image synthetique, diffusee par un viseur individuel, est mise a jour en temps reel en fonction des mouvements du spectateur dans l'environnement virtuel, suivis par un capteur de position solidaire de la tete. Cette information de position peut etre exploitee en temps reel par le Spatialisateur, afin de produire l'illusion que les positions et mouvements des sources sonores dans l'espace virtuel sont independants des mouvements du spectateur. Le realisme de la reproduction sonore est considerablement ameliore par ce procede et par la synthese d'un effet de salle naturel.

3.3. Acoustique architecturale et sonorisation de salles

Une des perspectives offertes par la simulation d'environnements sonores virtuels en temps reel est l'evaluation auditive d'un projet architectural (salle de concert par exemple) au cours de sa conception, avec la possibilite de juger instantanement de l'effet d'une modification de la geometrie ou des materiaux des parois. Cette application constitue encore aujourd'hui un defi difficile a relever, car elle requiert une grande precision dans la reproduction de l'effet de salle et une validation minutieuse des modeles de prediction informatique de la propagation du son dans les salles [Warusfel & al. 1995, Martin & al. 1993, Kleiner & al. 1993].
Enfin, le Spatialisateur peut etre utilise comme un systeme d'acoustique virtuelle assurant la variabilite de la qualite acoustique d'une salle (salle de concert ou salle polyvalente par exemple), pour la diffusion de messages sonores preenregistres ou la sonorisation de sources acoustiques (amplification et/ou reverberation assistee). Lorsque l'on souhaite realiser, dans une grande salle, un controle effectif des facteurs perceptifs lies au son direct et a l'effet de salle precoce, il est necessaire de subdiviser la scene et l'audience en zones traitees separement par le Spatialisateur. La structure du processeur est donc configuree pour chaque salle particuliere a partir de la bibliotheque de modules elementaires. A l'heure actuelle, la station d'informatique musicale de l'Ircam permet typiquement de traiter simultanement 6 zones de prise de son et 6 zones d'ecoute et jusqu'a 16 canaux en entree et 16 canaux en sortie.

4. References

[Chowning 1970] J. Chowning, "The simulation of moving sound sources", Journal of the Audio Engineering Society, vol. 19, no. 1, pp. 2-6, 1971.

[Foster & al. 1991] S. H. Foster, E.M. Wenzel, R.M.Taylor, "Real-time synthesis of complex acoustic environments", Proc. IEEE Workshop on Applications of Digital Signal Processing to Audio and Acoustics (New Paltz), 1991.

[Gardner 1992] B. Gardner, "A real-time multichannel room simulator", 124th meeting of the Acoustical Society of America (New Orleans), 1992.

[Jot 1992] J.-M. Jot, "Etude et realisation d'un spatialisateur de sons par modeles physiques et perceptifs", These de doctorat, Telecom Paris, 1992.

[Jot & al. 1995] J.-M. Jot, V. Larcher, O. Warusfel, "Digital signal processing issues in the context of binaural and transaural stereophony", 98th Convention of the Audio Engineering Society (Paris), preprint 3980, 1995.

[Jullien & al. 1992] J.-P. Jullien, E. Kahle, O. Warusfel, S. Winsberg, "Some results on the objective characterization of room acoustical quality in both laboratory and real environments", Proceedings of the Institute of Acoustics (Birmingham), vol. XIV, no. 2, 1992.

[Kleiner & al. 1993] M. Kleiner, B.-I. Dalenback, P. Svensson, "Auralization - An overview", Journal of the Audio Engineering Society, vol. 41, no. 11, pp. 861-875, 1993.

[Lavandier 1989] C. Lavandier, "Validation perceptive d'un modele objectif de caracterisation de la qualite acoustique des salles", These de doctorat, Universite du Maine, Le Mans, 1989.

[Martin & al. 1993] J. Martin, D. Van Maercke, J.-P. Vian, "Binaural simulation of concert halls: a new approach for the binaural reverberation process", Journal of the Acoustical Society of America, vol. 94, no. 6, 1993.

[Moore 1983] F. R. Moore, "A general model for spatial processing of sounds", Computer Music Journal, vol. 7, no. 6, pp. 6-15, 1983.

[Persterer 1989] A. Persterer, "A very high performance digital audio processing system", Proceedings of the 13th International Conference on Acoustics (Belgrade), 1989.

[Theile 1993] G. Thiele, "The new sound format `3/2-Stereo'", 94th Convention of the Audio Engineering Society (Berlin), preprint 3550a, 1993.

[Warusfel 1990] O. Warusfel, "Etude des parametres lies a la prise de son pour les applications d'acoustique virtuelle", Proceedings of the 1rst French Congress on Acoustics (Lyon), vol. 2, pp. 877-880, 1990.

[Warusfel & al. 1995] O. Warusfel, F. Cruz-Barney, "Validation of a computer simulation environment for room acoustics prediction", Proceedings of the 15th International Conference on Acoustics (Trondheim), 1995.