| Serveur © IRCAM - CENTRE POMPIDOU 1996-2005. Tous droits réservés pour tous pays. All rights reserved. |
Techniques d'interpolation de filtres audio-numériques: Application à la reproduction spatiale des sons sur écouteurs
Véronique Larcher et Jean-Marc Jot
Congrès Français d'Acoustique, Marseille, France, Avril 1997
Copyright © S.F.A., TEKNEA 1997
Summary
Linear interpolation of Head-Related Transfer Functions modeling parameters can be used to approximate missing HRTF measurements. When implemented in a real-time binaural spatialization system, it also
allows to reduce the volume of the HRTF database in the memory of the digital signal processor. These
modeling parameters consist in a pure delay, modeling the Interaural Time Difference (ITD), and a
representation of the HRTF magnitude. The ITD can be reconstructed according to the analytic law derived
from the sphere approximation of the human head. FIR and IIR modeling of the HRTF magnitude are
investigated. The IIR lattice and FIR transverse structures provide better interpolation performances.
It is concluded that an FIR implementation allows to reduce the cost of the binaural simulation to about
7 MIPS per sound source.
INTRODUCTION
Dans un logiciel de spatialisation des sons sur écouteurs, la
localisation d'une source virtuelle dans une direction d'incidence donnée
est obtenue en appliquant deux filtres linéaires à un son
monophonique. Les fonctions de transfert de ces filtres, ou HRTF, peuvent
être mesurées pour chaque oreille, et pour un ensemble de
directions d'incidence, en chambre anéchoïque. Elles sont stockées
après modélisation dans la mémoire d'un processeur
de traitement du signal.
Le volume de données nécessaire à la simulation est
contraignant à deux égards. Simuler toutes les directions
d'incidence discernables par l'auditeur requiert a priori la mesure d'un
nombre important de HRTF : les données psycho-expérimentales
fournies par Blauert [Blau83] sur la perception de la localisation dans
le plan horizontal et le plan médian indiquent qu'une base de données
``complète'' de HRTF nécessiterait environ 300 mesures par
oreille. D'autre part, les données stockées en mémoire
peuvent être jugées trop encombrantes, dans le cas par exemple
d'une implémentation VLSI. Pour une représentation utilisant
60 coefficients codés sur 24 bits, la base de donnés occupe
environ 100 kOctets. L'interpolation peut tout d'abord être utilisée
pour reconstruire des mesures manquantes, et ainsi réduire le nombre
de mesures à effectuer. Si en outre elle est mise en
oeuvre en temps réel, elle permet de minimiser l'encombrement mémoire
et de simuler des sources sonores mobiles.
MODELISATION DES FILTRES BINAURAUX
Comme tout filtre linéaire, les HRTF se décomposent comme
association en cascade d'un filtre à phase minimale et d'un filtre
passe-tout. L'amplitude et la phase d'un filtre à phase minimale
étant reliées par la transformée de Hilbert, chaque
HRTF est entièrement représentée par son spectre d'amplitude
et le spectre de phase de sa composante passe-tout (ou spectre d'excès
de phase), que nous modélisons indépendemment [Jot95] :
L'excès de phase des HRTF étant quasi-linéaire
en basses fréquences, il peut être approximé par un
retard pur, dont est déduit le retard interaural (ITD). Plusieurs
méthodes d'estimation ont été proposées, telles
que la détection de seuils sur les réponses temporelles ou
l'intercorrélation entre les réponses droite/gauche. Nous
estimons l'ITD par régression linéaire appliquée au
spectre d'excès de phase sur un intervalle de fréquence le
plus large possible, contenant au moins l'intervalle [200Hz-4kHz].
L'amplitude à modéliser est préalablement normalisée
par rapport au champ diffus. Cette procédure permet d'éliminer
l'information indépendante de la direction, telle que l'effet des
transducteurs de mesure, et contribue à réduire la durée
de la réponse temporelle [Jot95]. Le filtre de normalisation est
obtenu par moyennage énergétique des HRTF mesurées
pour un ensemble de directions d'incidences uniformément distribuées.
Le spectre d'amplitude normalisé peut alors être modélisé
par un filtre FIR, constitué des coefficients de sa réponse
temporelle à phase minimale, ou par un filtre IIR, dont les coefficients
sont ici obtenus en résolvant les équations de Yule-walker
[Krau94]
un lissage réduisant la résolution fréquentielle à
un demi ton. Elle s'effectue sur une échelle de fréquences
se rapprochant de l'échelle des Barks, par utilisation de la transformée
bilinéaire [Smit95]. Pour un nombre de coefficients donné,
et une fréquence d'échantillonnage supérieure à
40kHz, la modélisation IIR peut ainsi être rendue plus fidèle
en basses fréquences que la modélisation FIR.
TECHNIQUES D'INTERPOLATION
Nous disposons d'une base de données de HRTF mesurées
sur le mannequin Head Acoustics HMSII par pas de 5 degres en azimut dans
le plan horizontal. Les performances d'interpolation sont évaluées
pour différents choix de paramètres de modélisation
en comparant le filtre reconstruit et le filtre mesuré1.
Interpolation du retard interaural
La position d'une source sonore située sur la sphère unité
peut être repérée par un angle d'azimut
et un angle d'élévation
. En faisant l'approximation d'une tête sphérique sans pavillon
auditif, le retard interaural
s'exprime par :
oùr | représente le rayon de la tête sphérique considérée |
c | désigne la célérité du son dans l'air |
La figure 1 montre une bonne cohérence entre l'approximation
théorique et l'estimation réalisée à partir
des mesures. L'erreur maximale est obtenue pour les positions latérales,
mais n'excède pas la résolution spatiale du système
auditif, voisine de 10°
à ces positions [Blau83]. La reconstruction du retard interaural
ne requiert donc qu'une seule mesure individuelle, permettant d'accéder
au rayon de la tête de l'auditeur.
|
|
Figure 1:Approximation de l'ITD par régression linéaire sur le spectre
d'excès de phase (*), et retard théorique obtenu pour une tête sphérique (-).
|
Figure 2a: HRTF mesurées par pas de 5° dans le plan horizontal ( résolution fréquentielle d'un demi ton).
|
Interpolation du spectre d'amplitude
Les paramètres d'interpolation doivent respecter une triple contrainte
: la stabilité des filtres reconstruits par interpolation doit être
garantie par celle des filtres dont ils sont dérivés ; les
paramètres doivent être ordonnés, afin que puisse être
définie la trajectoire du paramètre de rang n sur
l'ensemble des directions d'incidence ; enfin, dans le cadre d'une interpolation
en temps réel, la conversion des paramètres d'interpolation
aux coefficients des filtres doit engager un coût de calcul minimum.
Trois structures sont comparées : la structure FIR transverse, la
structure treillis IIR et l'association en série de cellules IIR
du second ordre. Dans ce dernier cas, l'ordonnancement des coefficients
est fourni par un algorithme optimisant la trajectoire des fréquences
des pôles et des zéros [Larc94].
Dans le cadre d'une modélisation IIR, le meilleur paramétrage
pour l'interpolation semble être fourni par les Log Area Ratio, définis
à partir des coefficients ki
de la structure treillis par :
(figures 2b et 2c). Cela confirme les résultats connus dans le domaine
des signaux de parole. Les performances de l'interpolation sur les coefficients
du filtre FIR à phase minimale sont comparables.
CONCLUSION
L'implémentation des HRTF afin de simuler le mouvement d'une
source sonore nécessite de traiter deux problèmes [Jot95]
: l'interpolation permet de reconstituer des mesures manquantes
ou de réduire le volume de la base de données stockées
en mémoire ; la commutation des filtres en cours de traitement
doit être réalisée de façon à éviter
tout artefact audible lors des transitions. La commutation peut être
implémentée par superposition de deux filtres (fondu-enchaîné),
ou bien en utilisant un filtre unique dont les coefficients sont mis à
jour par interpolation. Ces deux stratégies doublent le coût
de l'implémentation par rapport à une implémentation
statique. Le filtre FIR à phase minimale offre de bonnes performances
d'interpolation et permet une modélisation efficace pour des HRTF
normalisées par rapport au champ diffus. La réponse impulsionnelle
peut en effet être tronquée à environ 0.75ms, ce qui
porte le coût de la simulation d'une source sonore mobile à
environ 7MIPS pour une fréquence d'échantillonnage de 48kHz.
1. Le mannequin Head Acoustics a été prêté par la direction de la Recherche de
la régie RENAULT que nous remercions.
REFERENCES
[Blau83] J.Blaubert, Spatial Hearing, the Pstchophysics of Human Sound Localization, MIT Press pp. 37-50, 1983.
[Jot95] J.-M. Jot, V. Larcher et O. Warusfel,"Digital Signal Processing Issues in the Context of Binaural and Transaural Stereophony", 98ème Convention Audio Eng. Soc., Preprint 3980(I6), 1995.
[Krau94] T.P. Krause, L. Shure, J.N Little, Signal processing toolbox for use with matlab, The MathWorks, Inc., 1994
[Larc94] V. Larcher, Interpolation de filtres numériques appliquée à la reproduction spatiale des sons sur écouteurs, E.N.S.T, Département Signal, 1994.
[Smith95] J.O Smith et J.S. Abel, "The Bark bilinear transform", IEEE ASSP, 1995.
|
|
Figure 2b: HRTF modélisées par des filtres FIR d'ordre 36 pour les
azimuts de 15°. Reconstruction par pas de de 5° obtenue par interpolation
sur les coefficients de la réponse impulsionnelle à phase minimale.
|
Figure 2c: HRTF modélisées par des filtres IIR d'ordre 16 pour les
azimuts de 15°. Reconstruction par pas de de 5° obtenue par interpolation
sur les coefficients des cellules du second ordre associées en série.
|
____________________________
Server © IRCAM-CGP, 1996-2008 - file updated on .
____________________________
Serveur © IRCAM-CGP, 1996-2008 - document mis à jour le .