Offre de thèse
ENACT - Utilisation de l'Intelligence Artificielle pour évaluer le Traitement Spatial opéré par les Prothèses Auditives
Date limite de candidature
15-04-2025
Date de début de contrat
01-10-2025
Directeur de thèse
DUCOURNEAU Joël
Encadrement
Lieu de la thèse : Laboratoire Énergies & Mécanique Théorique et Appliquée de l'Université de Lorraine (LEMTA - UMR 7563) - 2 Av. de la Forêt de Haye, 54500 Vandœuvre-lès-Nancy, France Directeur/Co directeur de thèse : LEMTA : ER Acoustique Joël Ducourneau, Pr Email : joel.ducourneau@univ-lorraine.fr Tel : 03 72 74 73 24 LORIA : ER Multispeech Romain Serizel, MCF HDR Email : romain.serizel@loria.fr Tel : 03 54 95 84 85 Le doctorant sera également encadré par deux enseignants-chercheurs de l'ER Acoustique LEMTA : Balbine Maillou, MCF Email : balbine.maillou@univ-lorraine.fr et Adil Faiz, MCF HDR Email : adil.faiz@univ-lorraine.fr La formation doctorale sera dispensée par l'ED SIMPEE.
Type de contrat
école doctorale
équipe
Groupe Energie et Transfertscontexte
La perte auditive touche plus de 1,5 milliard de personnes dans le monde, dont 434 millions sont équipées d'aides auditives. En France, la réforme '100% Santé' a facilité l'accès aux prothèses auditives, mais l'intelligibilité dans le bruit reste un défi. Les fabricants développent des algorithmes avancés pour améliorer l'intelligibilité en combinant la directivité microphonique adaptative et la réduction du bruit. Ces algorithmes détectent et localisent les sources sonores, ajustant la directivité microphonique et optimisant la réduction du bruit. Cependant, l'évaluation de leur efficacité réelle présente des limites. L'étude vise à évaluer ces algorithmes en proposant le développement d'une méthode permettant de tracer les diagrammes polaires de captation sonore illustrant le filtrage spatial opéré par les prothèses auditives de dernière génération.spécialité
Énergie et Mécaniquelaboratoire
LEMTA – Laboratoire Energies & Mécanique Théorique et Appliquée
Mots clés
Prothèse auditive, Directivité adpatative, Environnement sonore complexe, Apprentissage profond, Apprentissage auto-supervisé, Traitement spatial du son
Détail de l'offre
La perte auditive touche plus de 1,5 milliard de personnes dans le monde [1], entraînant des répercussions psychosociales, physiques et cognitives [2]. 434 millions de malentendants sont équipés d'appareils auditifs. En France, la réforme '100% Santé' a considérablement amélioré l'accès aux prothèses auditives [3], mais l'intelligibilité de la parole dans les environnements bruyants demeure un défi. Les fabricants développent des algorithmes avancés intégrant la directivité adaptative et la réduction du bruit pour améliorer l'intelligibilité. Ces algorithmes, souvent associés à l'IA, détectent et localisent les sources sonores, ajustant dynamiquement la directivité des microphones et les réducteurs de bruit. Cependant, estimer leur efficacité reste difficile en raison des limites des méthodes d'évaluation actuelles. L'étude proposée vise à évaluer les performances des algorithmes adaptatifs d'amélioration de l'intelligibilité dans le bruit.
L'évaluation des performances des traitements adaptatifs peut être réalisée par des méthodes subjectives (tests d'intelligibilité) très chronophages ou objectives (analyse des signaux en sortie d'appareil auditif). Cependant, les indicateurs psychoacoustiques objectifs actuels présentent des limites : HASPI 2.0 (2021) ne prédit pas l'intelligibilité dans des environnements spatialisés et MBSTOI (2018) ne prend pas en compte les pertes auditives. Wu Y-H et al. [4] ont proposé une méthode d'évaluation de cette directivité en utilisant un signal sonde et un bruit tournant autour de la prothèse auditive. Aubreville et al. [5] l'ont appliquée en 2015, mais la variation séquentielle du bruit peut influencer les résultats.
Le travail de thèse a pour objectif de développer une nouvelle méthode permettant d'obtenir des diagrammes polaires de captation sonore représentatifs du filtrage spatial opéré par les prothèses auditives récentes. Inspirée des travaux de Hagerman et Olofsson [6], cette méthode sépare l'énergie sonore provenant de différentes directions dans un environnement à 360° sans dépendre de la direction du signal interférent. Les résultats préliminaires indiquent son efficacité pour divers systèmes microphoniques directionnels et des prothèses auditives récentes bénéficiant de la connectivité binaurale [7].
La première phase de ce projet consiste à étendre l'approche de Wu Y-H et al. à des scénarios acoustiques complexes avec plusieurs sources ou locuteurs. Cette approche nécessitera de re-produire chaque scénario acoustique dans des conditions de laboratoire, où chaque source peut être diffusée indépendamment afin d'appliquer la méthode de Hagerman et Olofsson [6]. Ce-pendant, la méthode ne s'applique pas à des scénarios réels où les environnements acoustiques varient de manière imprévisible.
La deuxième étape du projet sera consacrée à l'utilisation de méthodes d'IA pour surmonter ces limitations et proposer des modèles capables d'évaluer la performance de la directivité des aides auditives dans des scénarios réels. Nous proposons de nous appuyer sur les approches existantes de filtrage spatial [8, 9] et sur des environnements acoustiques simulés [10] afin d'identifier des scénarios acoustiques canoniques à explorer lors des sessions d'enregistrement. Pour entraîner le modèle, les données enregistrées avec les aides auditives seront utilisées en complément de données simulées. Afin d'améliorer la robustesse aux scénarios du monde réel, nous explorerons la possibilité d'exploiter des données enregistrées dans des conditions écologiques en utilisant soit un prétraitement par séparation de sources [8, 9], soit l'apprentissage auto-supervisé [11].
A partir des diagrammes polaires de captation obtenus, une corrélation avec les indicateurs psychoacoustiques existants sera réalisée. De plus, les indices binauraux dérivés des modèles et des mesures seront comparés avec ceux des modèles HRTF pour les personnes normo-entendantes. Enfin, cette approche pourra être validée par des tests d'écoute.
Keywords
Hearing aids, Adaptive directivity, Complex sound environment, Deep learning, Self-supervised learning, Spatial sound processing
Subject details
Hearing loss affects over 1.5 billion people worldwide [1] leading to psychosocial, physical, and cognitive repercussions [2]. 434 million people with hearing loss require hearing aids. In France, the '100% Santé' reform has significantly improved access to hearing aids [3], but speech intelligibility in noisy environments remains a major challenge. Manufacturers are developing advanced algorithms integrating adaptive directivity and noise reduction to enhance intelligibility. These algorithms, often AI-powered, detect and localize sound sources, dynamically adjusting microphone directivity. However, assessing their real effectiveness remains difficult due to limitations in current evaluation methods. The proposed study aims to evaluate the performance of speech enhancement algorithms, focusing on adaptive directivity and noise reduction. Existing evaluation approaches include subjective methods (e.g., speech audiometry in noise), which are time-consuming, and objective methods (e.g., analysis of hearing aid output signals). Psychoacoustic indicators such as HASPI 2.0 and MBSTOI fail to fully capture intelligibility in spatialized environments. Moreover, MBSTOI does not account for hearing loss, and HASPI does not consider the binaural auditory perception. Studies, such as those by Wu Y-H et al. [4] and Aubreville et al. [5], proposed directivity evaluation methods but encountered limitations, particularly related to the variable noise position. This PhD research aims to develop a novel method for obtaining polar sound capture diagrams that illustrate how modern hearing aids perform spatial filtering. Inspired by Hagerman and Olofsson's work [6], this method separates sound energy from different directions in a 360° environment without relying on interfering signal direction. Preliminary results indicate its effectiveness for various directional microphone systems and recent hearing aids with binaural connectivity [7]. The first phase of this project involves extending Wu Y-H et al.'s approach to complex acoustic scenarios with multiple sources or speakers. Laboratory-controlled environments will be used to isolate each sound source and apply the Hagerman and Olofsson's method. However, this approach has limited applicability to real-world conditions, where acoustic environments vary unpredictably. The second step of the project will be dedicated to leveraging AI method to overcome this issue and propose models that could assess hearing aids directivity performance in real-world scenarios. We propose to rely on existing spatial filtering approaches [8, 9] and simulated acoustics environments [10] to identify canonical acoustic scenarios to be explored during recorded sessions. To train the model, the data recorded with hearing aids will be used together with simulated data. Finally, in order to improve robustness to real-world scenarios, we will explore the possibility to exploit data recorded in ecological conditions using either source separation pre-processing [8, 9] or self-supervised learning [11]. Throughout the research, the project will assess how polar sound capture diagrams complement existing psychoacoustic indicators. The correlation between diagram characteristics and intelligibility metrics (SII, HASPI 2.0, MBSTOI) will be examined. Moreover, binaural indices derived from models and measurements will be compared with normal-hearing HRTF. Finally, we will eventually validate the approach by confronting it to listening test results.
Profil du candidat
Traitement du signal audio, acoustique et programmation. Des compétences en apprentissage profond et auto-supervisé dans le domaine de l'IA seraient un atout.
Candidate profile
Audio signal processing, acoustics, and programming. Skills in deep learning and self-supervised learning in AI would be an asset.
Référence biblio
[1] S Chadha, K Kamenov, A Cieza, World Report on Hearing, World Health Organization, Bulletin of the World Health Organization, 2021, vol. 99, n°4, 2021
doi: 10.2471/BLT.21.285643
[2] D. McDaid, A. L. Park, S. Chadha, McDaid, D., Park, A. L., & Chadha, S., Estimating the global costs of hearing loss, International Journal of Audiology, vol 60, n°3, 2021, pp 162-170
doi: 10.1080/14992027.2021.1883197
[3] La complémentaire santé : Acteurs, bénéficiaires, garanties, DREES Santé, 2024
[4] Y-H Wu, R.A Bentler, Using a signal cancellation technique to assess adaptive directivity of hearing aids, Journal of the Acoustical Society of America, vol 122, n°1, 2007, pp 496-511
doi: 10.1121/1.2735804
[5] M. Aubreville, P. Stefan, Directionality assessment of adaptive binaural beamforming with noise suppression in hearing aids, IEEE International Conference on Acoustics, Speech and Signal Processing, 2015, pp. 211-215
doi: 10.1109/ICASSP.2015.7177962
[6] B. Hagerman, Å. Olofsson, A method to measure the effect of noise reduction algorithms using simultaneous speech and noise, Acta Acustica United with Acustica, vol 90, n°2, 2004, pp 356-361
[7] B. Maillou, J. Ducourneau, Development of an experimental technique for measuring polar diagrams of adaptive directivity implemented in hearing aids., Inter-Noise and Noise-Con Congress and Conference Proceedings, vol 270, n°8, pp. 3669-3680, 2024
doi: 10.3397/IN_2024_3357
[8] N. Furnon, R. Serizel, S. Essid, and I. Illina, “Dnn-based mask estimation for distributed speech enhancement,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 29, 2021, pp. 2310–2323
doi: 10.1109/TASLP.2021.3092838
[9] Z. Q. Wang and D. Wang, All-neural multi-channel speech enhancement, in Proc. Interspeech, 2018, pp. 3234–3238
doi: 10.21437/Interspeech.2018-1664
[10] I. R. Roman, C. Ick, S. Ding, A. S. Roman, B. McFee, and J. P. Bello, Spatial scaper: a library to simulate and augment soundscapes for sound event localization and detection in realistic rooms, In Proc. International Conference on Acoustics, Speech and Signal Processing, 2024, pp. 1221-1225
doi:10.48550/arXiv.2401.12238
[11] J. Gui, T. Chen, J. Zhang, Q. Cao, Z. Sun, H. Luo, D. Tao, A survey on self-supervised learning: Algorithms, applications, and future trends., IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, pp 9052 - 9071
doi: 10.1109/TPAMI.2024.3415112