IRCAM - Centre PompidouServeur © IRCAM - CENTRE POMPIDOU 1996-2005.
Tous droits réservés pour tous pays. All rights reserved.

Techniques, algorithmes et modèles de représentation pour la spatialisation des sons appliquée aux services multimedia

Jean-Marc Jot et Olivier Warusfel

CORESA97, Issy-Les Moulineaux, France, Mars 1997
Copyright © Ircam/Centre Georges-Pompidou 1997


1. INTRODUCTION

L'enregistrement, la synthèse et la restitution des informations spatiales dans une scène sonore sont des préoccupations essentielles dans l'industrie audiovisuelle. L'ensemble des informations auditives spatiales à restituer peut être divisé en deux catégories : la localisation auditive des différentes sources sonores (en trois dimensions dans le cas le plus général), et l'effet de salle (résultant des réflexions et de la réverbération sur les murs ou les obstacles), nécessaire à la reproduction des indices de distance et au réalisme de la simulation sonore. Les techniques de spatialisation audionumériques ont vu leurs premiers développements au cours des années 1970 dans les laboratoires de recherche en informatique musicale et en acoustique architecturale [Chowning 1971, Schroeder 1973]. Ces recherches ce sont intensifiées récemment avec l'essor des applications multimédia et de la réalité virtuelle [Foster 1991, Begault 1994]. Il est aujourd'hui possible de concevoir des systèmes produisant l'immersion d'un individu dans une scène restituée artificiellement grâce à la reconstruction d'informations multisensorielles (notamment auditives, visuelles et tactiles), et offrant un niveau élevé d'interactivité avec cette scène virtuelle.

1.1. APPORT POTENTIEL DES TECHNIQUES DE SPATIALISATION DANS LES APPLICATIONS MULTIMEDIA

Comparée à la reproduction monophonique, la spatialisation sonore peut-être un facteur essentiel pour améliorer la lisibilité, le réalisme et la sensation d'immersion dans une scène virtuelle. En particulier, elle rétablit, pour notre système perceptif, la possibilité d'exploiter les informations auditives afin de discriminer les sons provenant de sources situées à différentes positions dans l'espace [Blauert 1983, Begault 1994]. Ces indices auditifs viennent ainsi confirmer les indices visuels ou palier leur absence (comme dans le cas d'objets situés hors du champ de vision), et permettent à l'auditeur de mieux focaliser son attention sur certaines sources sonores au sein d'une scène sonore complexe ou d'un bruit ambiant. Enfin, la manipulation artificielle des attributs spatiaux des évènements sonores (direction, éloignement ou effet de salle) permet la création d'effets esthétiques ou de "réalité augmentée".

Dans les services actuels de téléconférence, l'interactivité, l'impression de présence des interlocuteurs distants et la sensation de partage d'un environnement commun sont limitées par la nature des informations auditives et visuelles transmises entre les sites. L'utilisation d'écrans vidéo de taille réduite et la transmission sonore monophonique contribuent à fournir aux participants l'impression de communiquer avec la salle distante à travers une fenêtre de dimensions réduites. Dans les futurs services de télécommunication de groupe, la restitution des indices de localisation auditive peut contribuer à améliorer l'intelligibilité, la discrimination auditive et l'identification des locuteurs distants (en particulier dans le cas de conversations simultanées). Cette évolution accompagne naturellement l'utilisation d'écrans de plus grande taille, mais est aussi souhaitable lorsque le support de l'image est absent ou symbolique. La restitution contrôlée de l'effet de salle permet de maîtriser la perception d'éloignement (afin par exemple d'assurer une meilleure cohérence avec l'image), et d'améliorer la sensation de téléprésence en plongeant artificiellement les participants dans un environnement sonore commun (continuité perceptive entre les sites distants). Enfin, la reconstruction d'un signal réverbéré et le contrôle de sa distribution spatiale dans la salle de réception devraient permettre de diminuer la sensation la coloration du timbre des voix des participants provoquée par la réverbération résiduelle captée dans la salle distante.

1.2. PRINCIPES GENERAUX DE LA REPRODUCTION SPATIALE

La reproduction des informations directionnelles de localisation auditive implique le choix d'un dispositif électroacoustique de reproduction (casque stéréophonique ou système de haut-parleurs) dont la configuration doit être définie en fonction du type de terminal considéré (station de travail informatique, casque de restitution stéréoscopique, studio de téléconférence, cabine d'écoute individuelle...). A ce système électroacoustique doit être associée la définition d'une technique de codage des informations directionnelles sur plusieurs canaux de reproduction audio. Ce codage peut être réalisé suivant deux approches principales :

a) Enregistrement d'une scène sonore réelle à l'aide d'un système de microphones (couple stéréophonique, tête artificielle, microphone "Soundfield") placé sensiblement à la position qu'occupe virtuellement l'auditeur au sein de cette scène. Ce type de prise de son encode simultanément les informations sonores associées aux différentes sources, mais restreint, à la réception, les possibilités de modification de leurs localisations relatives, d'adaptation à l'environnement de reproduction, et, dans le cas de la téléconférence, les possibilités de contrôle du bouclage acoustique.

b) Synthèse d'une scène sonore virtuelle : utilisation d'un algorithme de traitement du signal reconstruisant la localisation de chaque source sonore et l'effet de salle à partir de signaux sonores élémentaires monophoniques et de paramètres décrivant la scène sonore (position, orientation, directivité de chaque source sonore et caractérisation acoustique du lieu). Une reconstruction et une mise à jour en temps réel sont nécessaires dès lors que des éléments de la scène sonore reproduite peuvent être modifiés dynamiquement par les actions ou les déplacements d'un utilisateur (déplacement de sources sonores ou systèmes de suivi de position par exemple).

La synthèse des informations spatiales à la réception nécessite qu'un signal représentatif de chaque source sonore élémentaire (locuteur) puisse être enregistré individuellement avec un apport minimal de l'effet de salle et des autres sources sonores (bruits, autres participants) du lieu de prise de son. Cela requiert, dans le cas de la téléconférence, l'utilisation de micros-cravate, micros-casque, ou antennes acoustiques. Le contrôle de l'éloignement des sources sonores nécessite la reconstruction artificielle d'un effet de salle et la sensation d'immersion suppose que ce dernier soit alimenté, le cas échéant, par la propre voix de l'utilisateur.

Pour chaque terminal de réception, cette reconstruction en temps réel induit un coût de traitement qui croît linéairement en fonction du nombre de sources sonores virtuelles à reproduire simultanément. Cependant, ce traitement peut être réalisé de façon à émuler le format d'encodage d'un enregistrement par un système microphonique, assurant une compatibilité qui autorise la superposition des approches (a) et (b). Ainsi, les calculs nécessaires à la reproduction d'une scène sonore réaliste peuvent être réduits à la spatialisation en temps réel d'un nombre réduit de sources sonores mixées au sein d'une "ambiance" enregistrée par un système microphonique.

2. TECHNIQUES ET PROCESSEURS DE SPATIALISATION

2.1. TECHNIQUES D'ENCODAGE ET DE RESTITUTION DIRECTIONNELLE SUR HAUT-PARLEURS OU ECOUTEURS

Les techniques d'encodage permettant une reproduction sonore tridimensionnelle sur écouteurs ou sur un nombre réduit de haut-parleurs se divisent en trois groupes principaux : Pour une reproduction sur haut-parleurs, ces techniques se différencient essentiellement sur le plan de la complexité de mise en oeuvre (nombre de canaux de reproduction, complexité du traitement de signal), et sur le plan de la précision de l'image sonore et de sa robustesse en fonction de l'emplacement de l'auditeur et des conditions d'écoute. L'approche holographique de la restitution sonore sur haut-parleurs (qui permettrait théoriquement une restitution idéale pour une zone d'écoute étendue) reste, dans l'état actuel de ses développements, hors de portée de par sa complexité.

Technique de pondération d'intensité

Lorsqu'il s'agit de synthétiser électroniquement un effet de localisation dans le plan horizontal à partir d'un signal monophonique, la technique la plus classique est une pondération de l'intensité par paires de haut-parleurs voisins, dérivée du potentiomètre panoramique des consoles de mixage stéréophonique. Cette approche nécessite typiquement 6 à 8 haut-parleurs répartis autour de l'auditoire afin de restituer des effets de localisation sur 360 degrés [Theile 1977]. Malgré sa simplicité, elle est bien adaptée à la reproduction sonore sur un dispositif "stéréo-3/2", qui privilégie la restitution directionnelle des évènements sonores frontaux.

Le format "stéréo-3/2" permet de dépasser les limites de la stéréophonie conventionnelle grâce à l'utilisation de cinq canaux de reproduction [Theile 1993]. Le haut-parleur central permet de stabiliser la scène sonore frontale afin d'assurer une meilleure cohérence de celle-ci avec l'image visuelle, pour un ensemble de spectateurs. Deux canaux supplémentaires (canaux "surround") alimentent des haut-parleurs latéraux ou arrière dont le rôle essentiel est de permettre une distribution diffuse des sons d'ambiance et de réverbération.

Encodage en format B et technologie Ambisonics

Une seconde approche générale consiste à simuler électroniquement l'effet d'un dispositif de prise de son composé de plusieurs microphones. En particulier, le microphone "Soundfield" permet un encodage tridimensionnel du champ sonore en un point de l'espace sur quatre canaux audio (format "B"). La technologie "Ambisonics" fournit des décodeurs permettant, à partir d'enregistrements en format B, une reproduction sonore tridimensionnelle sur diverses configurations multi-haut-parleurs [Gerzon 1985, 1992]. Cependant, étant orientée vers une écoute individuelle, cette technologie n'offre pas de garantie quant à la stabilité de l'image auditive en fonction de l'emplacement de l'auditeur, ce qui peut être problématique en présence d'une image visuelle.

Synthèse binaurale

La reproduction sur écouteurs peut être réalisée soit directement par synthèse binaurale (équivalent électronique de l'enregistrement binaural ou par tête artificielle), ainsi que l'illustre la Figure 1 [Blauert 1983, Moller 1992, Begault 1994], soit indirectement via un format d'encodage directionnel intermédiaire (format B par exemple) et un post-traitement au moyen de filtres de synthèse binaurale.

Figure 1: Principe de la synthèse binaurale. La direction de la source sonore est contrôlée à l'aide de deux filtres audionumériques déduits des fonctions de transfert binaurales (HRTFs) mesurables, pour chaque direction, à l'aide d'un haut-parleur et de microphones miniatures insérés dans les conduits auditifs d'un individu.

Les principales limites actuellement rencontrées en reproduction sur écouteurs résident dans la variabilité interindividuelle des filtres binauraux et dans la nécessité d'un suivi en temps réel de l'orientation de la tête de l'auditeur lors de la reproduction. La restitution sur casque d'écoute présente cependant l'avantage d'éviter l'effet de filtrage de la salle de réception et de supprimer les risques de bouclage électroacoustique entre plusieurs sites mis en communication. Ce mode de reproduction sonore se marie par ailleurs naturellement aux casques de réalité virtuelle permettant une restitution visuelle stéréoscopique avec suivi de position de la tête.

La réalisation des filtres de synthèse binauraux soulève trois types de problèmes : la réduction du modèle (minimisation du coût de calcul d'une implémentation du filtre sur processeur de traitement de signal programmable); la commutation des filtres numériques pour permettre la simulation de sources sonores mobiles en éliminant tout artéfact audible (bruits transitoires); l'interpolation : reconstruction d'une HRTF synthétique pour une direction ne figurant pas dans la base de données mesurées (la réalisation de l'interpolation en temps réel permet de réduire le volume de la base de données de HRTF à mémoriser). Une implémentation à base de filtres audionumériques récursifs à phase minimale permet la réalisation du filtre de synthèse binaurale pour un coût d' environ 5 MIPS (millions d'instructions par seconde) à une fréquence d'échantillonnage de 32 kHz [Jot & al. 1995].

La fidélité de la reproduction spatiale peut être améliorée en recourant à la mesure des HRTF spécifiques de l'utilisateur [Wenzel & al. 1993]. Afin d'éviter ou de minimiser les procédures de mesures individuelles, on est conduit à rechercher des modèles de paramétrisation des variations des HRTF en fonction de la direction ou de l'individu [Emerit & al. 1995]. L'objectif final peut être soit de définir un jeu de HRTF "universel" offrant un compromis acceptable pour tout utilisateur, soit d'offrir à l'utilisateur la possibilité d'ajuster le traitement à son écoute personnelle, par le choix du jeu de HRTF le plus satisfaisant dans une banque de données, ou bien au moyen d'un jeu réduit de paramètres d'ajustement. Cependant, la nécessité de cette adaptation individuelle peut être moindre dans le cas d'une restitution sur écouteur avec suivi de position de la tête (headtracking). La mise à jour dynamique des indices auditifs de localisation en fonction de l'orientation de la tête de l'auditeur permet alors d'améliorer sensiblement le réalisme de la simulation sur écouteurs, y compris lorsque les HRTFs utilisées de sont pas propres à l'auditeur.

Reproduction transaurale

La synthèse binaurale permet également une reproduction sonore tridimensionnelle sur deux haut-parleurs à condition que le signal binaural soit "décodé" au travers d'une matrice de filtrage inverse. Cette technique, dite "transaurale", a pour effet d'annuler l'onde acoustique transmise de chaque haut-parleur vers l'oreille opposée. Ainsi, si l'on accepte une contrainte sur la position et l'orientation de la tête de l'auditeur et des deux haut-parleurs, il est théoriquement possible de reproduire, sur un dispositif stéréophonique conventionnel, des sons latéraux, arrières, en élévation, ou encore diffus (réverbération).

En pratique, lorsqu'il est possible de respecter les contraintes de positionnement à quelques centimètres près, la reproduction en mode transaural permet de restituer, au moyen de deux haut-parleurs frontaux, une localisation robuste de la source sonore virtuelle dans un secteur angulaire de +/-120 degrés environ dans le plan horizontal. L'Ircam prolonge ses travaux dans ce domaine avec les objectifs suivants :

Une amélioration sensible de la robustesse et de la stabilité a pu être obtenue par une extension utilisant deux haut-parleurs supplémentaires placés latéralement ou à l'arrière de l'auditeur. Une seconde approche possible consiste à mettre en oeuvre un décodeur transaural adaptatif associé à un dispositif de suivi de position [Casey & al. 1995].

2.2. ALGORITHMES DE REVERBERATION ARTIFICIELLE

La reconstruction d'un effet de salle artificiel peut être réalisée au moyen d'un algorithme de convolution utilisant une réponse impulsionnelle mesurée dans une salle existante ou calculée au moyen d'un logiciel de simulation physique de la propagation sonore dans une salle modélisée. Des algorithmes de convolution hybrides (temporels et fréquentiels) développés récemment permettent d'effectuer cette opération en temps réel [Gardner 1995].

Cependant, une reproduction exacte de l'effet de salle s'avère superflue dans la plupart des applications. Des implémentations plus efficaces peuvent être réalisées au moyen d'algorithmes de réverbération artificielle à base de réseaux récursifs de lignes à retard, dont la conception tire parti des propriétés statistiques et perceptives du phénomène de réverbération, et vise à restituer un effet de réverbération aussi naturel que celui d'une salle réelle (cf. figure 2.) [Jot 1992, Jot & al. 1995]. Les réseaux de lignes à retard permettent une réalisation plus économique du point de vue du coût de calcul (environ 5 à 10 MIPS), et, dans le contexte d'applications interactives, une manipulation plus directe des paramètres de la réverbération. Des structures de traitement efficaces pour la spatialisation simultanée de plusieurs sources sonores situées dans un même lieu virtuel peuvent être réalisées par la mise en commun de l'algorithme de réverbération tardive entre les différents signaux sources [Jot 1992].

D'un point de vue général, les principales limites des outils de production audio actuellement utilisés dans les studios d'enregistrements résident dans leur faible adaptabilité à des formats de reproduction dépassant les limites de la stéréophonie conventionnelle et dans l'absence d'un paramétrage pertinent du point de vue perceptif (qui offrirait par exemple un contrôle effectif de l'éloignement apparent de chaque source sonore). En ce qui concerne les processeurs de spatialisation orientés vers la réalité virtuelle, les limites actuellement rencontrées resident dans la complexité des processus mis en jeu pour assurer la mise à jour dynamique des paramètres des réflexions et de la réverbération en fonctiopn des déplacements des sources ou auditeurs [Moore 1982, Foster & al. 1991, Blauert & al. 1995].

Figure 2: Echogramme schématique de la réponse de salle obtenue par un algorithme réalisant de manière efficace la simulation binaurale d'un effet de salle basé sur un réseau récursif de retards.

2.3. MODELES DE REPRESENTATION DE LA SCENE SONORE

La synthèse de la scène sonore repose simultanément sur un ensemble d'algorithmes de traitement du signal et sur la conception d'une interface de contrôle. Cette interface vise à fournir une représentation de la scène sonore et à établir les correspondances entre ses paramètres de manipulation et les indices acoustiques de localisation et d'effet de salle liés à chaque couple source/récepteur. La gestion des effets de localisation angulaire repose naturellement sur le développement d'une interface de type géométrique représentant, en 2 ou 3 dimensions, les positions relatives des différentes sources et récepteurs. En ce qui concerne la distance et l'effet de salle, et selon le degré de cohérence requis avec la représentation visuelle, les paramètres de la transformation peuvent obéir à une modélisation physique de la propogation sonore dans la salle représentée à l'écran ou à un ensemble de règles heuristiques. Dans cette seconde approche, les paramètres de l'effet de salle synthétique peuvent être commandés uniquement par les coordonnées de positionnement respectifs des sources sonores et de l'auditeur, sans référence à la géométrie du lieu virtuel, ou en faisant intervenir une représentation purement symbolique de ce dernier. Les règles adoptées peuvent alors obéir soit à des lois statistiques de la propagation acoustique, soit à des lois arbitraires décrivant directement les effets perceptifs liés à chaque source et à la salle. Le choix entre les différentes modalités décrites ci-dessous dépend de la nature du service proposé.

Modèle perceptif

Le modèle perceptif, issu des recherches psycho-expérimentales, consiste à décrire l'effet perçu par l'auditeur par un jeu d'attributs perceptifs (présence de la source, enveloppement, réverbérance de la salle...). Du point de vue de l'analyse, ces différents attributs perceptifs peuvent être mis en relation bijective avec différents indices objectifs décrivant, de manière simplifiée, la distribution spatio-temporelle de l'énergie relevée au point d'écoute dans la salle [Jullien & al. 1992, Jullien 1995]. Du point de vue de la synthèse, ce modèle peut être exploité à condition de disposer d'un algorithme permettant de recréer et contrôler cette distribution temporelle de l'énergie. Cette démarche a été adoptée pour la conception du Spatialisateur (cf 3) [Jot & al. 1995]. L'interface graphique actuelle consiste, pour chaque source de la scène sonore, en une série de curseurs réglables associés aux différents attributs perceptifs. On peut également, à l'aide d'une interface bidimensionnelle, lier arbitrairement la variation d'un ou plusieurs attributs en fonction des déplacements relatifs des sources par rapport à l'auditeur.

Modèle physique statistique

Une démarche alternative résulte d'observations sur les lois physiques statistiques qui régissent la distribution spatio-temporelle de l'énergie dans les salles. Celles-ci permettent de proposer un modèle simplifié de dépendance de l'énergie associée au son direct, aux premières réflexions et au champ réverbéré en fonction de la distance source-récepteur sans faire appel à la description géométrique des parois de la salle. Comme pour le modèle perceptif, ces relations heuristiques offrent un moyen efficace pour la mise à jour dynamique des paramètres énergétiques de l'algorithme de réverbération artificielle en fonction des positions relatives des sources et du récepteur. Ce modèle peut être complété par des contrôles du volume de la salle virtuelle et de la directivité et de l'orientation de la source sonore.

Modèle physique géométrique

Lorsqu'un haut niveau de cohérence est requis entre les informations auditives et visuelles, il peut s'avérer nécessaire de recourir à l'exploitation de modèles physiques de la propagation sonore dans les salles. Le lieu est caractérisé par ses données architecturales (géométrie, constitution matérielle des parois) et les sources sont caractérisées par leur propriétés directives (indice de directivité, fonctions spatiales...). Différents modèles de propagation et de réflexion aux parois, similaires à ceux utilisés en optique, peuvent être mis en oeuvre (sources-images, rayons, radiosité).

Au regard de la complexité de la modélisation physique il n'est cependant pas envisageable d'effectuer une simulation exhaustive en temps-réel et par conséquent d'offrir un contrôle dynamique de la scène sonore. Plusieurs stratégies sont actuellement étudiées à l'IRCAM afin d'adapter ces modèles aux contraintes du temps réel :

3. LE PROJET SPATIALISATEUR

L'Ircam et Espaces Nouveaux développent depuis 1992 un processeur appelé Spatialisateur, qui se compose d'un ensemble de modules logiciels de traitement du signal et de commande en temps réel (modules de réverbération artificielle multicanaux, modules de reproduction directionnelle, filtres d'égalisation...). Fonctionnant dans l'environnement de traitement du signal Max/FTS de la Station d'Informatique Musicale de l'IRCAM [Déchelle & al. 1995], le Spatialisateur est disponible depuis 1995 et utilisé pour des travaux de recherche, pour la création d'oeuvres musicales, et pour la production d'enregistrements discographiques. Sa modularité et sa configurabilité en fonction du contexte de restitution sonore permettent l'utilisation du Spatialisateur dans divers domaines d'application : production musicale en concert, post-production d'enregistrements, composants audio des systèmes multimédia ou de réalité virtuelle, sonorisation ou réverbération assistée dans les lieux d'écoute.

3.1 DESCRIPTION

Le Spatialisateur intègre dans un module de traitement compact la synthèse de la localisation des sources sonores et celle de l'effet de salle (réverbération artificielle). Le module de traitement des signaux est configurable pour différents dispositifs de restitution électroacoustiques : systèmes multi-canaux de configurations diverses (incluant notamment la configuration stéréophonique conventionnelle et la configuration "stéréo-3/2") ou systèmes individuels de reproduction sonore tridimensionnelle sur casque ou sur deux haut-parleurs. Plusieurs modules Spatialisateurs peuvent être associés en parallèle afin de traiter simultanément plusieurs signaux sources. Le coût de calcul d'un tel module est sensiblement inférieur à la capacité d'un processeur de traitement du signal courant (qui est d'environ 20 à 30 MIPS). La structure modulaire du logiciel peut en outre être exploitée afin d'adapter l'architecture du traitement en fonction des spécificités de l'application et des ressources de calcul disponibles.

Modules et architectures de réverbération artificielle

Le Spatialisateur comprend une bibliothèque de modules de réverbération artificielle offrant divers degrés de complexité et de paramétrage de l'effet de salle. Les algorithmes de réverbération, basés sur des réseaux de lignes à retard, produisent une simulation naturelle de l'effet de salle pour une efficacité optimale sur le plan du coût de traitement et du contrôle dynamique des paramètres de la réverbération. La modularité de ces algorithmes permet la construction d'architectures de réverbération artificielle multi-sources, adaptées à divers contextes d'utilisation et optimisant l'exploitation des ressources de calcul.

Contrôle en temps réel au moyen de paramètres perceptifs (figure 3)

Le Spatialisateur permet le contrôle de la position tridimensionnelle de chaque évènement sonore en cohérence avec la reconstruction des effets de réverbération dans un lieu virtuel. Cependant, le paramétrage de l'effet de salle associé à chaque source sonore n'impose pas de référence à la géométrie et aux caractéristiques d'absorption des parois du lieu virtuel. Il est basé sur l'exploitation d'un modèle perceptif dont le principe est décrit au 2.3.

Configurabilité en fonction du système ou du format de restitution

Cette configurabilité est assurée par une famille de modules d'encodage directionnel et de restitution des signaux sonores dans divers formats :

De nouveaux modules d'encodage sur deux canaux seront prochainement disponibles : modules compatibles avec les décodeurs Dolby et modules permettant la simulation d'une prise de son par systèmes microphoniques coïncidents (XY, MS) ou non-coïncidents (AB ORTF).

En outre, un algorithme de compensation original permet la prise en compte des caractéristiques de réverbération du lieu d'écoute sans mettre en jeu des filtres inverses coûteux et contraignant la position d'écoute [Jot & al. 1995].

3.2 VALIDATION

Différentes études de validation sont menées afin de vérifier que le Spatialisateur, associé à une procédure de mesure et d'analyse-synthèse de réponses impulsionnelles de salles, est capable de reproduire fidèlement une situation d'écoute donnée. Ces études visent à valider, d'une part, les algorithmes mis en oeuvre pour la restitution de la distribution temporelle de l'énergie, et, d'autre part, les algorithmes reconstruisant les informations de localisation.

Une expérience de validation de ce type a fait l'objet de la thèse de doctorat de Martine Marin au CNET LAA/TSS/CMC [Marin 1996]. Dans la configuration étudiée, une prise de son stéréophonique en champ libre est reproduite sur un dispositif de deux haut-parleurs dans un studio d'écoute de petite taille. Comme l'illustre la Figure 4, cette reproduction peut être simulée à l'aide de trois modules Spatialisateur (l'un simule la prise de son stéréophonique, et chacun des deux autres simule les signaux sonores générés par l'un des haut-parleurs aux deux oreilles de l'auditeur). Dans l'expérience réalisée, il s'agissait de comparer une reproduction exacte de cette situation d'écoute avec sa simulation (la partie prise de son étant simulée dans les deux cas).

Figure 4: Simulation d'une configuration de prise et de restitution stéréophonique du son au moyen de trois modules Spatialisateurs. Dans l'expérience menée au CNET de Lannion, les modules Spatialisateurs 2 et 3 simulaient sur casque une écoute stéréophonique dans un studio de petite taille, tandis que le module Spatialisateur 1 simulait une prise de son stéréophonique conventionnelle en champ libre.

Cette première étude a permis de vérifier que, dans le cadre de la simulation sur écouteurs d'une situation de téléconférence, il est possible d'assurer une reproduction fidèle des principaux attributs perceptifs : localisation de l'événement sonore, réverbérance de la salle... Cette expérience (qui utilisait des HRTFs individuelles, mais sans compensation des mouvements de l'auditeur) préfigure l'utilisation de techniques de spatialisation binaurale dans un terminal de télécommunication individuel et fournit en outre une validation objective des algorithmes de réverbération artificielle pour la simulation d'une salle de dimensions réduites.

4. PERSPECTIVES D'APPLICATION

Plates-formes de traitement et contextes d'utilisation

Le Spatialisateur a été développé initialement dans l'environnement graphique orienté objet FTS/Max sur plate-forme NeXT (Station d'Informatique Musicale de l'IRCAM). Depuis la livraison de la première version du logiciel (Spat-0.1) en 1995, il est utilisé pour la création et la production en concert d'oeuvres musicales, pour la post-production d'enregistrements (CD) et dans le cadre de projets de recherche (collaboration avec France Télécom - CNET). Il bénéficie aujourdhui du portage récent de FTS/Max sur des plates-formes non dédiées dont le processeur interne offre une puissance suffisante pour le traitement des signaux audionumériques en temps réel. Le Spatialisateur fonctionne ainsi sur stations Silicon Graphics (Indy ou O2), et bientôt sur PowerMacintosh. Parallèlement, des travaux de portage spécifique du Spatialisateur vers les architectures dédiées au traitement du signal en temps réel à base de processeurs Motorola DSP56000 sont en cours.

Le Spatialisateur peut être contrôlé par le protocole MIDI ou divers types d'interfaces ou de langages, tels que VRML (Virtual reality Markup Language). Il permet au compositeur ou à l'ingénieur du son d'intégrer dans une partition électronique (séquenceur, automation) les effets de localisation et de réverbération et de les appliquer en temps réel lors d'un concert ou d'un enregistrement, indépendamment du format de restitution choisi. Il peut être utilisé pour la simulation immersive d'environnements virtuels sur haut-parleurs ou sur casque et peut être couplé à un capteur de position de tête (headtracker). Enfin, il peut être utilisé dans la conception d'un système d'acoustique variable pour une salle de concert ou une salle polyvalente.

Applications pour les télécommunications

Dans le cadre des services de télécommunication, diverses applications pourraient tirer bénéfice de l'intégration d'un processeur de Spatialisation sonore à un terminal de télécommunication (de type studio ou individuel). La Figure 5 illustre cette utilisation dans le cas d'une communication "full-duplex" entre deux salles de téléconférence munies de systèmes de reproduction de type stéréo-3/2. Si l'une des deux salles était remplacée par un terminal individuel, il suffirait de reconfigurer le processeur local afin de réaliser une reproduction sur écouteurs (mode binaural) ou sur deux haut-parleurs (mode transaural), sans que les signaux sonores à transmettre entre les sites ou le protocole de communication s'en trouvent affectés.

En ce qui concerne la transmission de ces informations, plusieurs approches peuvent être envisagées :

(a) (b)

Figure 5: Deux approches possibles pour la transmission des informations auditives spatiales entre deux sites équipés d'un dispositif de reproduction de type Stéréo-3/2. (a) Encodage spatial à la prise de son complété par un post-traitement à la réception. (b) Prise de son monophonique et reconstruction des informations spatiales à la réception sur la base de spécifications définies en début de séance (et éventuellement remises à jour dynamiquement en cours de communication).

REFERENCES

D. BEGAULT, 3-D Sound for virtual reality and multimedia, Academic Press, 1994.

J. BLAUERT, Spatial Hearing: the Psychophysics of Human Sound Localization. MIT Press, 1983.

J. BLAUERT, H. LEHNERT, "Binaural technology and virtual reality", Proc. 2nd International Conf. on Acoustics and Musical Research (Ferrara, Italy), 1995.

M. A. CASEY., W. G. GARDNER, S. BASU, "Vision steered beam-forming and transaural rendering for the artificial life interactive video environment (ALIVE)", Proc. 99th Conv. Audio Engineering Society, preprint 4052, 1995.

J. CHOWNING, "The simulation of moving sound sources", J. Audio Engineering Society, vol. 19, no. 1, 1971.

D. H. COOPER, J. L. BAUCK, "Prospects for transaural recording", J. Audio Engineering Society, vol. 37, no. 1/2, 1989.

F. DECHELLE, M. DECECCO, "The IRCAM real-time platform and applications", Proc. International Computer Music Conf. (Banff, Canada), 1995.

M. EMERIT, J. MARTIN, E. DUDOUET, "Head-related transfer functions and high-order statistics", Proc. 15th International Conf. on Acoustics (Trondheim), 1995.

S. FOSTER, E. M. WENZEL, R. M. TAYLOR, "Real-time synthesis of complex acoustic environments", Proc. IEEE Workshop on Applications of Digital Signal Processing to Audio and Acoustics, 1991.

W. G. GARDNER, "Efficient convolution without input-output delay", J. Audio Engineering Society, vol. 43, no. 3, 1995.

M. GERZON, "Ambisonics in multichannel broadcasting and video", J. Audio Engineering Society, vol. 33, no. 11, 1985.

M. GERZON, "Psychoacoustic decoders for multispeaker stereo and surround sound", Proc. 93rd Conv. Audio Eng. Soc. (preprint 3406), 1992.

J.-M. JOT, Etude et réalisation d'un spatialisateur de sons par modèles physiques et perceptifs, thèse de doctorat de l'Ecole Nationale Supérieure des Télécommunications, Septembre 1992.

J.-M. JOT, V. LARCHER, O. WARUSFEL, "Digital signal processing issues in the context of binaural and transaural stereophony", Proc. 98th Conv. Audio Engineering Society (Paris), preprint 3980, 1995.

J.-M. JOT, J.-P. JULLIEN, O. WARUSFEL, "Procédé de simulation de la qualité acoustique d'une salle et processeur audio-numérique associé", demande de brevet Francais déposée le 25 Août 1995 au nom de France Télécom -CNET.

J.-P. JULLIEN, E. KAHLE, S. WINSBERG, O. WARUSFEL, "Some results on the objective and perceptual characterization of room acoustical quality in both laboratory and real environments", Proc. Institute of Acoustics, vol. XIV, no. 2, 1992.

J.-P. JULLIEN, O. WARUSFEL, "Technologies et perception auditive de l'espace", Les Cahiers de l'IRCAM, vol. 5 "L'Espace", pp. 65-94, 1994.

J.-P. JULLIEN, "Structured model for the representation and the control of room acoustical quality", Proc. 15th International Conf. on Acoustics, 1995.

M. MARIN, Etude de la localisation en prise et restitution pour la téléconférence de haute qualité, thèse de Doctorat de l'Université du Maine, Le Mans. Octobre 1996.

H. MOLLER, "Fundamentals of binaural technology", Applied Acoustics, Vol. 36, pp. 171-217, 1992.

F. R. MOORE, "A general model for spatial processing of sounds", Computer Music Journal, vol. 7, no. 6, 1983.

M. R. SCHROEDER, "Computer models for concert hall acoustics", American Journal of Physics, Vol. 41, pp. 461-471, 1973.

G. THEILE, "The new sound format '3/2-stereo' ", Proc. 94th Conv. Audio Engineering Society (Berlin), preprint 3550a, 1993.

G. THEILE, "Localization of lateral phantom sources", J. Audio Engineering Society, vol. 25, no. 4, 1977.

E. M. WENZEL, M. ARRUDA, D. J. KISTLER, F. L. WHIGHTMAN , "Localization using nonindividualized head-related transfer functions". J. Acoustical Soc. America, Vol. 94, pp. 111-123, 1993.

____________________________
Server © IRCAM-CGP, 1996-2008 - file updated on .

____________________________
Serveur © IRCAM-CGP, 1996-2008 - document mis à jour le .