*

ENACT - Inversion acoustique articulatoire du conduit vocal complet et indépendante du locuteur

Offre de thèse

ENACT - Inversion acoustique articulatoire du conduit vocal complet et indépendante du locuteur

Date limite de candidature

20-04-2025

Date de début de contrat

01-10-2025

Directeur de thèse

LAPRIE Yves

Encadrement

Une réunion de suivi aura lieu chaque semaine et chacune des deux équipes organise un séminaire scientifique hebdomadaire. Le doctorant aura aussi l'occasion de participer à une ou deux écoles d'été et aux conférences en IRM et en traitement automatique de la parole. Il sera aussi aidé pour la rédaction des articles de conférence ou de revue.

Type de contrat

Concours pour un contrat doctoral

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

MULTISPEECH

contexte

This PhD offer is provided by the ENACT AI Cluster and its partners. Find all ENACT PhD offers and actions on https://cluster-ia-enact.ai/. Articulatory acoustic inversion consists in recovering the geometric shape of the vocal tract from the speech signal. This is a major scientific challenge in automatic speech processing. Potential applications include providing articulatory feedback to a foreign language learning, or medical diagnosis of speech articulation. However, for the moment this problem has only been partially solved, and existing inversion techniques can only recover a few articulatory variables in the vocal tract, essentially for the front part of the tongue and the lips. We have already developed an approach to mono-speaker acoustic to articulatory inversion by training inversion from real-time MRI data and the denoised speech signal.

spécialité

Informatique

laboratoire

LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Mots clés

Intelligence artificielle, traitement automatique de la parole, deep learning, IRM temps réel

Détail de l'offre

L'inversion acoustique articulatoire vise à reconstruire la forme géométrique du conduit vocal à partir du signal de parole. Cela présente un défi majeur en traitement automatique de la parole. À ce jour, seules des solutions partielles ont été proposées, principalement pour la partie avant de la langue et les lèvres. Un premier travail a permis de développer une approche monolocuteur de tout le conduit vocal en exploitant des données d'IRM temps réel et le signal de parole correspondant.
L'objectif actuel est de développer une inversion multilocuteur, en utilisant des données provenant pour une vingtaine de locuteurs. Cela nécessite la mise en place de procédures d'adaptation anatomique et acoustique pour chaque locuteur. Le travail comporte quatre aspects : l'adaptation anatomique, l'adaptation acoustique, l'inversion acoustique articulatoire, et l'évaluation des résultats. L'inversion proprement dite reposera sur des réseaux LSTM bidirectionnels pour retrouver le contour des articulateurs, avec des informations d'attention pour améliorer la cohérence. Enfin, les résultats seront évalués géométriquement et avec le calcul de variables articulatoires prenant en compte la dimension phonétique.

This PhD offer is provided by the ENACT AI Cluster and its partners. Find all ENACT PhD offers and actions on https://cluster-ia-enact.ai/.

Keywords

Artificial intelligence, automatic speech processing, deep learning, real time MRI

Subject details

Articulatory acoustic inversion aims to reconstruct the geometric shape of the vocal tract from the speech signal. This presents a major challenge in automatic speech processing. To date, only partial solutions have been proposed, mainly for the front part of the tongue and the lips. Initial work has developed a mono-speaker approach to the entire vocal tract, using real-time MRI data and the corresponding speech signal. The current objective is to develop a multi-speaker inversion, using data from around twenty speakers. This requires the implementation of anatomical and acoustic adaptation procedures for each speaker. The work involves four aspects: anatomical adaptation, acoustic adaptation, articulatory to acoustic inversion, and evaluation of results. The inversion itself may rely on bidirectional LSTM networks to recover articulator contours, with attention phonetic information to improve consistency. Finally, the results will be evaluated geometrically and with the calculation of articulatory variables taking into account the phonetic dimension. This PhD offer is provided by the ENACT AI Cluster and its partners. Find all ENACT PhD offers and actions on https://cluster-ia-enact.ai/.

Profil du candidat

Le candidat doit avoir une solide formation en apprentissage profond, en mathématiques appliquées et en informatique. Des connaissances en traitement de la parole et de l'IRM seront également appréciées.

Candidate profile

The applicant should have a solid background in deep learning, applied mathematics and computer sciences. Knowledge in speech and MRI processing will be also appreciated.

Référence biblio

AZZOUZ, Sofiane, VUISSOZ, Pierre-André, et LAPRIE, Yves. Complete reconstruction of the tongue contour through acoustic to articulatory inversion using real-time MRI data. arXiv preprint arXiv:2411.02037, 2024.
Isaieva K, Laprie Y, Leclère J, Douros IK, Felblinger J, Vuissoz PA. Multimodal dataset of real-time 2D and static 3D MRI of healthy French speakers. Sci Data. 2021 Oct 1;8(1):258. doi: 10.1038/s41597-021-01041-3. PMID: 34599194; PMCID: PMC8486854.