Serveur © IRCAM - CENTRE POMPIDOU 1996-2005. Tous droits réservés pour tous pays. All rights reserved. |
CORESA97, Issy-Les Moulineaux, France, Mars 1997
Copyright © Ircam/Centre Georges-Pompidou 1997
Dans les services actuels de téléconférence, l'interactivité, l'impression de présence des interlocuteurs distants et la sensation de partage d'un environnement commun sont limitées par la nature des informations auditives et visuelles transmises entre les sites. L'utilisation d'écrans vidéo de taille réduite et la transmission sonore monophonique contribuent à fournir aux participants l'impression de communiquer avec la salle distante à travers une fenêtre de dimensions réduites. Dans les futurs services de télécommunication de groupe, la restitution des indices de localisation auditive peut contribuer à améliorer l'intelligibilité, la discrimination auditive et l'identification des locuteurs distants (en particulier dans le cas de conversations simultanées). Cette évolution accompagne naturellement l'utilisation d'écrans de plus grande taille, mais est aussi souhaitable lorsque le support de l'image est absent ou symbolique. La restitution contrôlée de l'effet de salle permet de maîtriser la perception d'éloignement (afin par exemple d'assurer une meilleure cohérence avec l'image), et d'améliorer la sensation de téléprésence en plongeant artificiellement les participants dans un environnement sonore commun (continuité perceptive entre les sites distants). Enfin, la reconstruction d'un signal réverbéré et le contrôle de sa distribution spatiale dans la salle de réception devraient permettre de diminuer la sensation la coloration du timbre des voix des participants provoquée par la réverbération résiduelle captée dans la salle distante.
a) Enregistrement d'une scène sonore réelle à l'aide d'un système de microphones (couple stéréophonique, tête artificielle, microphone "Soundfield") placé sensiblement à la position qu'occupe virtuellement l'auditeur au sein de cette scène. Ce type de prise de son encode simultanément les informations sonores associées aux différentes sources, mais restreint, à la réception, les possibilités de modification de leurs localisations relatives, d'adaptation à l'environnement de reproduction, et, dans le cas de la téléconférence, les possibilités de contrôle du bouclage acoustique.
b) Synthèse d'une scène sonore virtuelle : utilisation d'un algorithme de traitement du signal reconstruisant la localisation de chaque source sonore et l'effet de salle à partir de signaux sonores élémentaires monophoniques et de paramètres décrivant la scène sonore (position, orientation, directivité de chaque source sonore et caractérisation acoustique du lieu). Une reconstruction et une mise à jour en temps réel sont nécessaires dès lors que des éléments de la scène sonore reproduite peuvent être modifiés dynamiquement par les actions ou les déplacements d'un utilisateur (déplacement de sources sonores ou systèmes de suivi de position par exemple).
La synthèse des informations spatiales à la réception nécessite qu'un signal représentatif de chaque source sonore élémentaire (locuteur) puisse être enregistré individuellement avec un apport minimal de l'effet de salle et des autres sources sonores (bruits, autres participants) du lieu de prise de son. Cela requiert, dans le cas de la téléconférence, l'utilisation de micros-cravate, micros-casque, ou antennes acoustiques. Le contrôle de l'éloignement des sources sonores nécessite la reconstruction artificielle d'un effet de salle et la sensation d'immersion suppose que ce dernier soit alimenté, le cas échéant, par la propre voix de l'utilisateur.
Pour chaque terminal de réception, cette reconstruction en temps réel induit un coût de traitement qui croît linéairement en fonction du nombre de sources sonores virtuelles à reproduire simultanément. Cependant, ce traitement peut être réalisé de façon à émuler le format d'encodage d'un enregistrement par un système microphonique, assurant une compatibilité qui autorise la superposition des approches (a) et (b). Ainsi, les calculs nécessaires à la reproduction d'une scène sonore réaliste peuvent être réduits à la spatialisation en temps réel d'un nombre réduit de sources sonores mixées au sein d'une "ambiance" enregistrée par un système microphonique.
Technique de pondération d'intensité
Lorsqu'il s'agit de synthétiser électroniquement un effet de localisation dans le plan horizontal à partir d'un signal monophonique, la technique la plus classique est une pondération de l'intensité par paires de haut-parleurs voisins, dérivée du potentiomètre panoramique des consoles de mixage stéréophonique. Cette approche nécessite typiquement 6 à 8 haut-parleurs répartis autour de l'auditoire afin de restituer des effets de localisation sur 360 degrés [Theile 1977]. Malgré sa simplicité, elle est bien adaptée à la reproduction sonore sur un dispositif "stéréo-3/2", qui privilégie la restitution directionnelle des évènements sonores frontaux.
Le format "stéréo-3/2" permet de dépasser les limites de la stéréophonie conventionnelle grâce à l'utilisation de cinq canaux de reproduction [Theile 1993]. Le haut-parleur central permet de stabiliser la scène sonore frontale afin d'assurer une meilleure cohérence de celle-ci avec l'image visuelle, pour un ensemble de spectateurs. Deux canaux supplémentaires (canaux "surround") alimentent des haut-parleurs latéraux ou arrière dont le rôle essentiel est de permettre une distribution diffuse des sons d'ambiance et de réverbération.
Encodage en format B et technologie Ambisonics
Une seconde approche générale consiste à simuler électroniquement l'effet d'un dispositif de prise de son composé de plusieurs microphones. En particulier, le microphone "Soundfield" permet un encodage tridimensionnel du champ sonore en un point de l'espace sur quatre canaux audio (format "B"). La technologie "Ambisonics" fournit des décodeurs permettant, à partir d'enregistrements en format B, une reproduction sonore tridimensionnelle sur diverses configurations multi-haut-parleurs [Gerzon 1985, 1992]. Cependant, étant orientée vers une écoute individuelle, cette technologie n'offre pas de garantie quant à la stabilité de l'image auditive en fonction de l'emplacement de l'auditeur, ce qui peut être problématique en présence d'une image visuelle.
Synthèse binaurale
La reproduction sur écouteurs peut être réalisée soit directement par synthèse binaurale (équivalent électronique de l'enregistrement binaural ou par tête artificielle), ainsi que l'illustre la Figure 1 [Blauert 1983, Moller 1992, Begault 1994], soit indirectement via un format d'encodage directionnel intermédiaire (format B par exemple) et un post-traitement au moyen de filtres de synthèse binaurale.
Figure 1: Principe de la synthèse binaurale. La direction de
la source sonore est contrôlée à l'aide de deux filtres
audionumériques déduits des fonctions de transfert binaurales
(HRTFs) mesurables, pour chaque direction, à l'aide d'un haut-parleur et
de microphones miniatures insérés dans les conduits auditifs d'un
individu.
La réalisation des filtres de synthèse binauraux soulève
trois types de problèmes : la réduction du modèle
(minimisation du coût de calcul d'une implémentation du filtre sur
processeur de traitement de signal programmable); la commutation des
filtres numériques pour permettre la simulation de sources sonores
mobiles en éliminant tout artéfact audible (bruits transitoires);
l'interpolation : reconstruction d'une HRTF synthétique pour une
direction ne figurant pas dans la base de données mesurées (la
réalisation de l'interpolation en temps réel permet de
réduire le volume de la base de données de HRTF à
mémoriser). Une implémentation à base de filtres
audionumériques récursifs à phase minimale permet la
réalisation du filtre de synthèse binaurale pour un coût d'
environ 5 MIPS (millions d'instructions par seconde) à une
fréquence d'échantillonnage de 32 kHz [Jot & al. 1995].
La fidélité de la reproduction spatiale peut être
améliorée en recourant à la mesure des HRTF
spécifiques de l'utilisateur [Wenzel & al. 1993]. Afin
d'éviter ou de minimiser les procédures de mesures individuelles,
on est conduit à rechercher des modèles de paramétrisation
des variations des HRTF en fonction de la direction ou de l'individu [Emerit & al. 1995]. L'objectif final peut être soit de définir un jeu
de HRTF "universel" offrant un compromis acceptable pour tout utilisateur, soit
d'offrir à l'utilisateur la possibilité d'ajuster le traitement
à son écoute personnelle, par le choix du jeu de HRTF le plus
satisfaisant dans une banque de données, ou bien au moyen d'un jeu
réduit de paramètres d'ajustement. Cependant, la
nécessité de cette adaptation individuelle peut être
moindre dans le cas d'une restitution sur écouteur avec suivi de
position de la tête (headtracking). La mise à jour dynamique des
indices auditifs de localisation en fonction de l'orientation de la tête
de l'auditeur permet alors d'améliorer sensiblement le réalisme
de la simulation sur écouteurs, y compris lorsque les HRTFs
utilisées de sont pas propres à l'auditeur.
Reproduction transaurale
La synthèse binaurale permet également une reproduction
sonore tridimensionnelle sur deux haut-parleurs à condition que le
signal binaural soit "décodé" au travers d'une matrice de
filtrage inverse. Cette technique, dite "transaurale", a pour effet d'annuler
l'onde acoustique transmise de chaque haut-parleur vers l'oreille
opposée. Ainsi, si l'on accepte une contrainte sur la position et
l'orientation de la tête de l'auditeur et des deux haut-parleurs, il est
théoriquement possible de reproduire, sur un dispositif
stéréophonique conventionnel, des sons latéraux,
arrières, en élévation, ou encore diffus
(réverbération).
En pratique, lorsqu'il est possible de respecter les contraintes de
positionnement à quelques centimètres près, la
reproduction en mode transaural permet de restituer, au moyen de deux
haut-parleurs frontaux, une localisation robuste de la source sonore virtuelle
dans un secteur angulaire de +/-120 degrés environ dans le plan
horizontal. L'Ircam prolonge ses travaux dans ce domaine avec les objectifs
suivants :
Les principales limites actuellement rencontrées en
reproduction sur écouteurs résident dans la variabilité
interindividuelle des filtres binauraux et dans la nécessité d'un
suivi en temps réel de l'orientation de la tête de l'auditeur lors
de la reproduction. La restitution sur casque d'écoute présente
cependant l'avantage d'éviter l'effet de filtrage de la salle de
réception et de supprimer les risques de bouclage
électroacoustique entre plusieurs sites mis en communication. Ce mode de
reproduction sonore se marie par ailleurs naturellement aux casques de
réalité virtuelle permettant une restitution visuelle
stéréoscopique avec suivi de position de la tête.
Une amélioration sensible de la robustesse et de la stabilité a
pu être obtenue par une extension utilisant deux haut-parleurs
supplémentaires placés latéralement ou à
l'arrière de l'auditeur. Une seconde approche possible consiste à
mettre en oeuvre un décodeur transaural adaptatif associé
à un dispositif de suivi de position [Casey & al. 1995].
Cependant, une reproduction exacte de l'effet de salle s'avère superflue dans la plupart des applications. Des implémentations plus efficaces peuvent être réalisées au moyen d'algorithmes de réverbération artificielle à base de réseaux récursifs de lignes à retard, dont la conception tire parti des propriétés statistiques et perceptives du phénomène de réverbération, et vise à restituer un effet de réverbération aussi naturel que celui d'une salle réelle (cf. figure 2.) [Jot 1992, Jot & al. 1995]. Les réseaux de lignes à retard permettent une réalisation plus économique du point de vue du coût de calcul (environ 5 à 10 MIPS), et, dans le contexte d'applications interactives, une manipulation plus directe des paramètres de la réverbération. Des structures de traitement efficaces pour la spatialisation simultanée de plusieurs sources sonores situées dans un même lieu virtuel peuvent être réalisées par la mise en commun de l'algorithme de réverbération tardive entre les différents signaux sources [Jot 1992].
D'un point de vue général, les principales limites des outils de production audio actuellement utilisés dans les studios d'enregistrements résident dans leur faible adaptabilité à des formats de reproduction dépassant les limites de la stéréophonie conventionnelle et dans l'absence d'un paramétrage pertinent du point de vue perceptif (qui offrirait par exemple un contrôle effectif de l'éloignement apparent de chaque source sonore). En ce qui concerne les processeurs de spatialisation orientés vers la réalité virtuelle, les limites actuellement rencontrées resident dans la complexité des processus mis en jeu pour assurer la mise à jour dynamique des paramètres des réflexions et de la réverbération en fonctiopn des déplacements des sources ou auditeurs [Moore 1982, Foster & al. 1991, Blauert & al. 1995].
Figure 2: Echogramme schématique de la réponse de
salle obtenue par un algorithme réalisant de manière efficace la
simulation binaurale d'un effet de salle basé sur un réseau
récursif de retards.
Modèle perceptif
Le modèle perceptif, issu des recherches
psycho-expérimentales, consiste à décrire l'effet
perçu par l'auditeur par un jeu d'attributs perceptifs
(présence de la source, enveloppement, réverbérance de
la salle...). Du point de vue de l'analyse, ces différents attributs
perceptifs peuvent être mis en relation bijective avec différents
indices objectifs décrivant, de manière simplifiée, la
distribution spatio-temporelle de l'énergie relevée au point
d'écoute dans la salle [Jullien & al. 1992, Jullien 1995]. Du point
de vue de la synthèse, ce modèle peut être exploité
à condition de disposer d'un algorithme permettant de recréer et
contrôler cette distribution temporelle de l'énergie. Cette
démarche a été adoptée pour la conception du
Spatialisateur (cf 3) [Jot & al. 1995]. L'interface graphique actuelle
consiste, pour chaque source de la scène sonore, en une série de
curseurs réglables associés aux différents attributs
perceptifs. On peut également, à l'aide d'une interface
bidimensionnelle, lier arbitrairement la variation d'un ou plusieurs attributs
en fonction des déplacements relatifs des sources par rapport à
l'auditeur.
Modèle physique statistique
Une démarche alternative résulte d'observations sur les
lois physiques statistiques qui régissent la distribution
spatio-temporelle de l'énergie dans les salles. Celles-ci permettent de
proposer un modèle simplifié de dépendance de
l'énergie associée au son direct, aux premières
réflexions et au champ réverbéré en fonction de la
distance source-récepteur sans faire appel à la description
géométrique des parois de la salle. Comme pour le modèle
perceptif, ces relations heuristiques offrent un moyen efficace pour la mise
à jour dynamique des paramètres énergétiques de
l'algorithme de réverbération artificielle en fonction des
positions relatives des sources et du récepteur. Ce modèle peut
être complété par des contrôles du volume de la salle
virtuelle et de la directivité et de l'orientation de la source sonore.
Modèle physique géométrique
Lorsqu'un haut niveau de cohérence est requis entre les
informations auditives et visuelles, il peut s'avérer nécessaire
de recourir à l'exploitation de modèles physiques de la
propagation sonore dans les salles. Le lieu est caractérisé par
ses données architecturales (géométrie, constitution
matérielle des parois) et les sources sont caractérisées
par leur propriétés directives (indice de directivité,
fonctions spatiales...). Différents modèles de propagation et de
réflexion aux parois, similaires à ceux utilisés en
optique, peuvent être mis en oeuvre (sources-images, rayons,
radiosité).
Au regard de la complexité de la modélisation physique il n'est
cependant pas envisageable d'effectuer une simulation exhaustive en
temps-réel et par conséquent d'offrir un contrôle dynamique
de la scène sonore. Plusieurs stratégies sont actuellement
étudiées à l'IRCAM afin d'adapter ces modèles aux
contraintes du temps réel :
Modules et architectures de réverbération artificielle
Le Spatialisateur comprend une bibliothèque de modules de
réverbération artificielle offrant divers degrés de
complexité et de paramétrage de l'effet de salle. Les algorithmes
de réverbération, basés sur des réseaux de lignes
à retard, produisent une simulation naturelle de l'effet de salle pour
une efficacité optimale sur le plan du coût de traitement et du
contrôle dynamique des paramètres de la
réverbération. La modularité de ces algorithmes permet la
construction d'architectures de réverbération artificielle
multi-sources, adaptées à divers contextes d'utilisation et
optimisant l'exploitation des ressources de calcul.
Contrôle en temps réel au moyen de paramètres perceptifs (figure 3)
Le Spatialisateur permet le contrôle de la position
tridimensionnelle de chaque évènement sonore en cohérence
avec la reconstruction des effets de réverbération dans un lieu
virtuel. Cependant, le paramétrage de l'effet de salle associé
à chaque source sonore n'impose pas de référence à
la géométrie et aux caractéristiques d'absorption des
parois du lieu virtuel. Il est basé sur l'exploitation d'un
modèle perceptif dont le principe est décrit au 2.3.
Configurabilité en fonction du système ou du format de restitution
Cette configurabilité est assurée par une famille de
modules d'encodage directionnel et de restitution des signaux sonores dans
divers formats :
Figure 3: Interface de commande "de haut niveau" d'un module
Spatialisateur. Cette interface comprend les réglages des attributs
perceptifs décrivant les effets spatiaux, ainsi que des
paramètres de configuration qui peuvent être réglés
au début d'une séance d'écoute ou de travail en fonction
de la configuration du dispositif de reproduction.
En outre, un algorithme de compensation original permet la prise en compte des
caractéristiques de réverbération du lieu d'écoute
sans mettre en jeu des filtres inverses coûteux et contraignant la
position d'écoute [Jot & al. 1995].
Une expérience de validation de ce type a fait l'objet de la
thèse de doctorat de Martine Marin au CNET LAA/TSS/CMC [Marin 1996].
Dans la configuration étudiée, une prise de son
stéréophonique en champ libre est reproduite sur un dispositif de
deux haut-parleurs dans un studio d'écoute de petite taille. Comme
l'illustre la Figure 4, cette reproduction peut être simulée
à l'aide de trois modules Spatialisateur (l'un simule la prise de son
stéréophonique, et chacun des deux autres simule les signaux
sonores générés par l'un des haut-parleurs aux deux
oreilles de l'auditeur). Dans l'expérience réalisée, il
s'agissait de comparer une reproduction exacte de cette situation
d'écoute avec sa simulation (la partie prise de son étant
simulée dans les deux cas).
Figure 4: Simulation d'une configuration de prise et de restitution
stéréophonique du son au moyen de trois modules Spatialisateurs.
Dans l'expérience menée au CNET de Lannion, les modules
Spatialisateurs 2 et 3 simulaient sur casque une écoute
stéréophonique dans un studio de petite taille, tandis que le
module Spatialisateur 1 simulait une prise de son stéréophonique
conventionnelle en champ libre.
Le Spatialisateur a été développé
initialement dans l'environnement graphique orienté objet FTS/Max sur
plate-forme NeXT (Station d'Informatique Musicale de l'IRCAM). Depuis la
livraison de la première version du logiciel (Spat-0.1) en 1995, il est
utilisé pour la création et la production en concert d'oeuvres
musicales, pour la post-production d'enregistrements (CD) et dans le cadre de
projets de recherche (collaboration avec France Télécom - CNET).
Il bénéficie aujourdhui du portage récent de FTS/Max sur
des plates-formes non dédiées dont le processeur interne offre
une puissance suffisante pour le traitement des signaux audionumériques
en temps réel. Le Spatialisateur fonctionne ainsi sur stations Silicon
Graphics (Indy ou O2), et bientôt sur PowerMacintosh.
Parallèlement, des travaux de portage spécifique du
Spatialisateur vers les architectures dédiées au traitement du
signal en temps réel à base de processeurs Motorola DSP56000 sont
en cours.
Le Spatialisateur peut être contrôlé par le protocole MIDI
ou divers types d'interfaces ou de langages, tels que VRML (Virtual reality
Markup Language). Il permet au compositeur ou à l'ingénieur du
son d'intégrer dans une partition électronique
(séquenceur, automation) les effets de localisation et de
réverbération et de les appliquer en temps réel lors d'un
concert ou d'un enregistrement, indépendamment du format de restitution
choisi. Il peut être utilisé pour la simulation immersive
d'environnements virtuels sur haut-parleurs ou sur casque et peut être
couplé à un capteur de position de tête (headtracker).
Enfin, il peut être utilisé dans la conception d'un système
d'acoustique variable pour une salle de concert ou une salle polyvalente.
Applications pour les télécommunications
Dans le cadre des services de télécommunication, diverses
applications pourraient tirer bénéfice de l'intégration
d'un processeur de Spatialisation sonore à un terminal de
télécommunication (de type studio ou individuel). La Figure 5
illustre cette utilisation dans le cas d'une communication "full-duplex" entre
deux salles de téléconférence munies de systèmes de
reproduction de type stéréo-3/2. Si l'une des deux salles
était remplacée par un terminal individuel, il suffirait de
reconfigurer le processeur local afin de réaliser une reproduction sur
écouteurs (mode binaural) ou sur deux haut-parleurs (mode transaural),
sans que les signaux sonores à transmettre entre les sites ou le
protocole de communication s'en trouvent affectés.
En ce qui concerne la transmission de ces informations, plusieurs approches
peuvent être envisagées :
D. BEGAULT, 3-D Sound for virtual reality and multimedia, Academic
Press, 1994.
J. BLAUERT, Spatial Hearing: the Psychophysics of Human Sound Localization. MIT
Press, 1983.
J. BLAUERT, H. LEHNERT, "Binaural technology and virtual reality", Proc. 2nd
International Conf. on Acoustics and Musical Research (Ferrara, Italy), 1995.
M. A. CASEY., W. G. GARDNER, S. BASU, "Vision steered beam-forming and
transaural rendering for the artificial life interactive video environment
(ALIVE)", Proc. 99th Conv. Audio Engineering Society, preprint 4052, 1995.
J. CHOWNING, "The simulation of moving sound sources", J. Audio Engineering
Society, vol. 19, no. 1, 1971.
D. H. COOPER, J. L. BAUCK, "Prospects for transaural recording", J. Audio
Engineering Society, vol. 37, no. 1/2, 1989.
F. DECHELLE, M. DECECCO, "The IRCAM real-time platform and applications", Proc.
International Computer Music Conf. (Banff, Canada), 1995.
M. EMERIT, J. MARTIN, E. DUDOUET, "Head-related transfer functions and
high-order statistics", Proc. 15th International Conf. on Acoustics
(Trondheim), 1995.
S. FOSTER, E. M. WENZEL, R. M. TAYLOR, "Real-time synthesis of complex acoustic
environments", Proc. IEEE Workshop on Applications of Digital Signal Processing
to Audio and Acoustics, 1991.
W. G. GARDNER, "Efficient convolution without input-output delay", J. Audio
Engineering Society, vol. 43, no. 3, 1995.
M. GERZON, "Ambisonics in multichannel broadcasting and video", J. Audio
Engineering Society, vol. 33, no. 11, 1985.
M. GERZON, "Psychoacoustic decoders for multispeaker stereo and surround
sound", Proc. 93rd Conv. Audio Eng. Soc. (preprint 3406), 1992.
J.-M. JOT, Etude et réalisation d'un spatialisateur de sons par
modèles physiques et perceptifs, thèse de doctorat de l'Ecole
Nationale Supérieure des Télécommunications, Septembre
1992.
J.-M. JOT, V. LARCHER, O. WARUSFEL, "Digital signal processing issues in the
context of binaural and transaural stereophony", Proc. 98th Conv. Audio
Engineering Society (Paris), preprint 3980, 1995.
J.-M. JOT, J.-P. JULLIEN, O. WARUSFEL, "Procédé de simulation de
la qualité acoustique d'une salle et processeur audio-numérique
associé", demande de brevet Francais déposée le 25
Août 1995 au nom de France Télécom -CNET.
J.-P. JULLIEN, E. KAHLE, S. WINSBERG, O. WARUSFEL, "Some results on the
objective and perceptual characterization of room acoustical quality in both
laboratory and real environments", Proc. Institute of Acoustics, vol. XIV, no.
2, 1992.
J.-P. JULLIEN, O. WARUSFEL, "Technologies et perception auditive de l'espace",
Les Cahiers de l'IRCAM, vol. 5 "L'Espace", pp. 65-94, 1994.
J.-P. JULLIEN, "Structured model for the representation and the control of room
acoustical quality", Proc. 15th International Conf. on Acoustics, 1995.
M. MARIN, Etude de la localisation en prise et restitution pour la
téléconférence de haute qualité, thèse de
Doctorat de l'Université du Maine, Le Mans. Octobre 1996.
H. MOLLER, "Fundamentals of binaural technology", Applied Acoustics, Vol. 36,
pp. 171-217, 1992.
F. R. MOORE, "A general model for spatial processing of sounds", Computer Music
Journal, vol. 7, no. 6, 1983.
M. R. SCHROEDER, "Computer models for concert hall acoustics", American Journal
of Physics, Vol. 41, pp. 461-471, 1973.
G. THEILE, "The new sound format '3/2-stereo' ", Proc. 94th Conv. Audio
Engineering Society (Berlin), preprint 3550a, 1993.
G. THEILE, "Localization of lateral phantom sources", J. Audio Engineering
Society, vol. 25, no. 4, 1977.
E. M. WENZEL, M. ARRUDA, D. J. KISTLER, F. L. WHIGHTMAN , "Localization using
nonindividualized head-related transfer functions". J. Acoustical Soc. America,
Vol. 94, pp. 111-123, 1993.
____________________________ ____________________________
2.3. MODELES DE REPRESENTATION DE LA SCENE SONORE
La synthèse de la scène sonore repose simultanément
sur un ensemble d'algorithmes de traitement du signal et sur la conception
d'une interface de contrôle. Cette interface vise à fournir une
représentation de la scène sonore et à établir les
correspondances entre ses paramètres de manipulation et les indices
acoustiques de localisation et d'effet de salle liés à chaque
couple source/récepteur. La gestion des effets de localisation angulaire
repose naturellement sur le développement d'une interface de type
géométrique représentant, en 2 ou 3 dimensions, les
positions relatives des différentes sources et récepteurs. En ce
qui concerne la distance et l'effet de salle, et selon le degré de
cohérence requis avec la représentation visuelle, les
paramètres de la transformation peuvent obéir à une
modélisation physique de la propogation sonore dans la salle
représentée à l'écran ou à un ensemble de
règles heuristiques. Dans cette seconde approche, les paramètres
de l'effet de salle synthétique peuvent être commandés
uniquement par les coordonnées de positionnement respectifs des sources
sonores et de l'auditeur, sans référence à la
géométrie du lieu virtuel, ou en faisant intervenir une
représentation purement symbolique de ce dernier. Les règles
adoptées peuvent alors obéir soit à des lois statistiques
de la propagation acoustique, soit à des lois arbitraires
décrivant directement les effets perceptifs liés à chaque
source et à la salle. Le choix entre les différentes
modalités décrites ci-dessous dépend de la nature du
service proposé.
3. LE PROJET SPATIALISATEUR
L'Ircam et Espaces Nouveaux développent depuis 1992 un processeur
appelé Spatialisateur, qui se compose d'un ensemble de modules
logiciels de traitement du signal et de commande en temps réel (modules
de réverbération artificielle multicanaux, modules de
reproduction directionnelle, filtres d'égalisation...). Fonctionnant
dans l'environnement de traitement du signal Max/FTS de la Station
d'Informatique Musicale de l'IRCAM [Déchelle & al. 1995], le
Spatialisateur est disponible depuis 1995 et utilisé pour des travaux de
recherche, pour la création d'oeuvres musicales, et pour la production
d'enregistrements discographiques. Sa modularité et sa
configurabilité en fonction du contexte de restitution sonore permettent
l'utilisation du Spatialisateur dans divers domaines d'application : production
musicale en concert, post-production d'enregistrements, composants audio des
systèmes multimédia ou de réalité virtuelle,
sonorisation ou réverbération assistée dans les lieux
d'écoute.
3.1 DESCRIPTION
Le Spatialisateur intègre dans un module de traitement compact la
synthèse de la localisation des sources sonores et celle de l'effet de
salle (réverbération artificielle). Le module de traitement des
signaux est configurable pour différents dispositifs de restitution
électroacoustiques : systèmes multi-canaux de configurations
diverses (incluant notamment la configuration stéréophonique
conventionnelle et la configuration "stéréo-3/2") ou
systèmes individuels de reproduction sonore tridimensionnelle sur casque
ou sur deux haut-parleurs. Plusieurs modules Spatialisateurs peuvent être
associés en parallèle afin de traiter simultanément
plusieurs signaux sources. Le coût de calcul d'un tel module est
sensiblement inférieur à la capacité d'un processeur de
traitement du signal courant (qui est d'environ 20 à 30 MIPS). La
structure modulaire du logiciel peut en outre être exploitée afin
d'adapter l'architecture du traitement en fonction des
spécificités de l'application et des ressources de calcul
disponibles.
De nouveaux modules d'encodage sur deux canaux seront prochainement disponibles : modules compatibles avec les décodeurs Dolby et modules permettant la
simulation d'une prise de son par systèmes microphoniques
coïncidents (XY, MS) ou non-coïncidents (AB ORTF).
3.2 VALIDATION
Différentes études de validation sont menées afin
de vérifier que le Spatialisateur, associé à une
procédure de mesure et d'analyse-synthèse de réponses
impulsionnelles de salles, est capable de reproduire fidèlement une
situation d'écoute donnée. Ces études visent à
valider, d'une part, les algorithmes mis en oeuvre pour la restitution de la
distribution temporelle de l'énergie, et, d'autre part, les algorithmes
reconstruisant les informations de localisation.
Cette première étude a permis de vérifier
que, dans le cadre de la simulation sur écouteurs d'une situation de
téléconférence, il est possible d'assurer une reproduction
fidèle des principaux attributs perceptifs : localisation de
l'événement sonore, réverbérance de la salle...
Cette expérience (qui utilisait des HRTFs individuelles, mais sans
compensation des mouvements de l'auditeur) préfigure l'utilisation de
techniques de spatialisation binaurale dans un terminal de
télécommunication individuel et fournit en outre une validation
objective des algorithmes de réverbération artificielle pour la
simulation d'une salle de dimensions réduites.4. PERSPECTIVES D'APPLICATION
Plates-formes de traitement et contextes d'utilisation
(a)
(b)
Figure 5: Deux approches possibles pour la transmission des informations
auditives spatiales entre deux sites équipés d'un dispositif de
reproduction de type Stéréo-3/2. (a) Encodage spatial à la
prise de son complété par un post-traitement à la
réception. (b) Prise de son monophonique et reconstruction des
informations spatiales à la réception sur la base de
spécifications définies en début de séance (et
éventuellement remises à jour dynamiquement en cours de
communication).
REFERENCES
Server © IRCAM-CGP, 1996-2008 - file updated on .
Serveur © IRCAM-CGP, 1996-2008 - document mis à jour le .