Suivi de locuteurs mobiles et intermittents par exploitation de l'identité du locuteur
Tracking intermittent and moving speakers with speaker-identity information
Jury
Directeur de these_SERIZEL_Romain_Université de Lorraine
Rapporteur_TAHON_Marie_Université du Mans
Rapporteur_POLITIS_Archontis_Tampere University
Examinateur_VAN WATERSCHOOT_Toon_KU Leuven
Co-encadrant de these_GUéRIN_Alexandre_Orange
Examinateur_BERTIN_Nancy_Oracle
école doctorale
IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES
Laboratoire
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Mention de diplôme
Informatique
LORIA C005
Loria, 615, rue du Jardin Botanique
54600 Villers-lès-Nancy
Mots clés
Suivi de sources sonores,Reconnaissance du locuteur,Apprentissage profond,Suivi de locuteurs,Locuteurs inttermitens et mobiles,Plongement de locuteurs
Résumé de la thèse
L'estimation de la position de sources sonores à partir d'enregistrements audio est utile pour certaines applications industrielles exploitant l'information spatiale, telles que les systèmes de captation visant à extraire une source d'intérêt en présence de bruit.
Cette thèse répond à ce besoin et porte sur le suivi des sources sonores, une sous-tâche de l'analyse de scènes spatiales visant à estimer, au cours du temps, les positions des sources sonores à partir d'enregistrements réalisés par des antennes microphoniques.
Cette thèse se concentre en particulier sur les scénarios impliquant des
Keywords
Sound source tracking,Speaker recognition,Deep learning,Speaker tracking,Intermittent and moving speakers,Deep speaker embeddings
Abstract
Knowing the positions of sound sources from audio recordings is relevant for concrete industrial applications, where spatial information may be required to extract individual source signals in sound capture systems or to encode spatial acoustic scenes for immersive communications.
This thesis addresses this need by focusing on sound source tracking, a spatial scene analysis subtask that aims at estimating the time-varying positions of sound sources from multichannel microphone recordings.
In this thesis, emphasis is placed on meeting-like scenarios involving speech sources in indoor environme