IRCAM - Centre PompidouServeur © IRCAM - CENTRE POMPIDOU 1996-2005.
Tous droits réservés pour tous pays. All rights reserved.

Techniques d'interpolation de filtres audio-numériques: Application à la reproduction spatiale des sons sur écouteurs

Véronique Larcher et Jean-Marc Jot

Congrès Français d'Acoustique, Marseille, France, Avril 1997
Copyright © S.F.A., TEKNEA 1997


Summary

Linear interpolation of Head-Related Transfer Functions modeling parameters can be used to approximate missing HRTF measurements. When implemented in a real-time binaural spatialization system, it also allows to reduce the volume of the HRTF database in the memory of the digital signal processor. These modeling parameters consist in a pure delay, modeling the Interaural Time Difference (ITD), and a representation of the HRTF magnitude. The ITD can be reconstructed according to the analytic law derived from the sphere approximation of the human head. FIR and IIR modeling of the HRTF magnitude are investigated. The IIR lattice and FIR transverse structures provide better interpolation performances. It is concluded that an FIR implementation allows to reduce the cost of the binaural simulation to about 7 MIPS per sound source.

INTRODUCTION

Dans un logiciel de spatialisation des sons sur écouteurs, la localisation d'une source virtuelle dans une direction d'incidence donnée est obtenue en appliquant deux filtres linéaires à un son monophonique. Les fonctions de transfert de ces filtres, ou HRTF, peuvent être mesurées pour chaque oreille, et pour un ensemble de directions d'incidence, en chambre anéchoïque. Elles sont stockées après modélisation dans la mémoire d'un processeur de traitement du signal.
Le volume de données nécessaire à la simulation est contraignant à deux égards. Simuler toutes les directions d'incidence discernables par l'auditeur requiert a priori la mesure d'un nombre important de HRTF : les données psycho-expérimentales fournies par Blauert [Blau83] sur la perception de la localisation dans le plan horizontal et le plan médian indiquent qu'une base de données ``complète'' de HRTF nécessiterait environ 300 mesures par oreille. D'autre part, les données stockées en mémoire peuvent être jugées trop encombrantes, dans le cas par exemple d'une implémentation VLSI. Pour une représentation utilisant 60 coefficients codés sur 24 bits, la base de donnés occupe environ 100 kOctets. L'interpolation peut tout d'abord être utilisée pour reconstruire des mesures manquantes, et ainsi réduire le nombre de mesures à effectuer. Si en outre elle est mise en oeuvre en temps réel, elle permet de minimiser l'encombrement mémoire et de simuler des sources sonores mobiles.

MODELISATION DES FILTRES BINAURAUX

Comme tout filtre linéaire, les HRTF se décomposent comme association en cascade d'un filtre à phase minimale et d'un filtre passe-tout. L'amplitude et la phase d'un filtre à phase minimale étant reliées par la transformée de Hilbert, chaque HRTF est entièrement représentée par son spectre d'amplitude et le spectre de phase de sa composante passe-tout (ou spectre d'excès de phase), que nous modélisons indépendemment [Jot95] :
L'excès de phase des HRTF étant quasi-linéaire en basses fréquences, il peut être approximé par un retard pur, dont est déduit le retard interaural (ITD). Plusieurs méthodes d'estimation ont été proposées, telles que la détection de seuils sur les réponses temporelles ou l'intercorrélation entre les réponses droite/gauche. Nous estimons l'ITD par régression linéaire appliquée au spectre d'excès de phase sur un intervalle de fréquence le plus large possible, contenant au moins l'intervalle [200Hz-4kHz].
L'amplitude à modéliser est préalablement normalisée par rapport au champ diffus. Cette procédure permet d'éliminer l'information indépendante de la direction, telle que l'effet des transducteurs de mesure, et contribue à réduire la durée de la réponse temporelle [Jot95]. Le filtre de normalisation est obtenu par moyennage énergétique des HRTF mesurées pour un ensemble de directions d'incidences uniformément distribuées.
Le spectre d'amplitude normalisé peut alors être modélisé par un filtre FIR, constitué des coefficients de sa réponse temporelle à phase minimale, ou par un filtre IIR, dont les coefficients sont ici obtenus en résolvant les équations de Yule-walker [Krau94] un lissage réduisant la résolution fréquentielle à un demi ton. Elle s'effectue sur une échelle de fréquences se rapprochant de l'échelle des Barks, par utilisation de la transformée bilinéaire [Smit95]. Pour un nombre de coefficients donné, et une fréquence d'échantillonnage supérieure à 40kHz, la modélisation IIR peut ainsi être rendue plus fidèle en basses fréquences que la modélisation FIR.

TECHNIQUES D'INTERPOLATION

Nous disposons d'une base de données de HRTF mesurées sur le mannequin Head Acoustics HMSII par pas de 5 degres en azimut dans le plan horizontal. Les performances d'interpolation sont évaluées pour différents choix de paramètres de modélisation en comparant le filtre reconstruit et le filtre mesuré1.

Interpolation du retard interaural

La position d'une source sonore située sur la sphère unité peut être repérée par un angle d'azimut et un angle d'élévation . En faisant l'approximation d'une tête sphérique sans pavillon auditif, le retard interaural s'exprime par :


rreprésente le rayon de la tête sphérique considérée
cdésigne la célérité du son dans l'air
La figure 1 montre une bonne cohérence entre l'approximation théorique et l'estimation réalisée à partir des mesures. L'erreur maximale est obtenue pour les positions latérales, mais n'excède pas la résolution spatiale du système auditif, voisine de 10° à ces positions [Blau83]. La reconstruction du retard interaural ne requiert donc qu'une seule mesure individuelle, permettant d'accéder au rayon de la tête de l'auditeur.

Figure 1:Approximation de l'ITD par régression linéaire sur le spectre d'excès de phase (*), et retard théorique obtenu pour une tête sphérique (-). Figure 2a: HRTF mesurées par pas de 5° dans le plan horizontal ( résolution fréquentielle d'un demi ton).

Interpolation du spectre d'amplitude

Les paramètres d'interpolation doivent respecter une triple contrainte : la stabilité des filtres reconstruits par interpolation doit être garantie par celle des filtres dont ils sont dérivés ; les paramètres doivent être ordonnés, afin que puisse être définie la trajectoire du paramètre de rang n sur l'ensemble des directions d'incidence ; enfin, dans le cadre d'une interpolation en temps réel, la conversion des paramètres d'interpolation aux coefficients des filtres doit engager un coût de calcul minimum.
Trois structures sont comparées : la structure FIR transverse, la structure treillis IIR et l'association en série de cellules IIR du second ordre. Dans ce dernier cas, l'ordonnancement des coefficients est fourni par un algorithme optimisant la trajectoire des fréquences des pôles et des zéros [Larc94].
Dans le cadre d'une modélisation IIR, le meilleur paramétrage pour l'interpolation semble être fourni par les Log Area Ratio, définis à partir des coefficients ki de la structure treillis par : (figures 2b et 2c). Cela confirme les résultats connus dans le domaine des signaux de parole. Les performances de l'interpolation sur les coefficients du filtre FIR à phase minimale sont comparables.

CONCLUSION

L'implémentation des HRTF afin de simuler le mouvement d'une source sonore nécessite de traiter deux problèmes [Jot95] : l'interpolation permet de reconstituer des mesures manquantes ou de réduire le volume de la base de données stockées en mémoire ; la commutation des filtres en cours de traitement doit être réalisée de façon à éviter tout artefact audible lors des transitions. La commutation peut être implémentée par superposition de deux filtres (fondu-enchaîné), ou bien en utilisant un filtre unique dont les coefficients sont mis à jour par interpolation. Ces deux stratégies doublent le coût de l'implémentation par rapport à une implémentation statique. Le filtre FIR à phase minimale offre de bonnes performances d'interpolation et permet une modélisation efficace pour des HRTF normalisées par rapport au champ diffus. La réponse impulsionnelle peut en effet être tronquée à environ 0.75ms, ce qui porte le coût de la simulation d'une source sonore mobile à environ 7MIPS pour une fréquence d'échantillonnage de 48kHz.


1. Le mannequin Head Acoustics a été prêté par la direction de la Recherche de la régie RENAULT que nous remercions.

REFERENCES

[Blau83] J.Blaubert, Spatial Hearing, the Pstchophysics of Human Sound Localization, MIT Press pp. 37-50, 1983.

[Jot95] J.-M. Jot, V. Larcher et O. Warusfel,"Digital Signal Processing Issues in the Context of Binaural and Transaural Stereophony", 98ème Convention Audio Eng. Soc., Preprint 3980(I6), 1995.

[Krau94] T.P. Krause, L. Shure, J.N Little, Signal processing toolbox for use with matlab, The MathWorks, Inc., 1994

[Larc94] V. Larcher, Interpolation de filtres numériques appliquée à la reproduction spatiale des sons sur écouteurs, E.N.S.T, Département Signal, 1994.

[Smith95] J.O Smith et J.S. Abel, "The Bark bilinear transform", IEEE ASSP, 1995.


Figure 2b: HRTF modélisées par des filtres FIR d'ordre 36 pour les azimuts de 15°. Reconstruction par pas de de 5° obtenue par interpolation sur les coefficients de la réponse impulsionnelle à phase minimale. Figure 2c: HRTF modélisées par des filtres IIR d'ordre 16 pour les azimuts de 15°. Reconstruction par pas de de 5° obtenue par interpolation sur les coefficients des cellules du second ordre associées en série.

____________________________
Server © IRCAM-CGP, 1996-2008 - file updated on .

____________________________
Serveur © IRCAM-CGP, 1996-2008 - document mis à jour le .