Offre de thèse
ENACT Modélisation multimodale des gestes co-verbaux : Vers un système de génération automatique de gestes contextuellement pertinents.
Date limite de candidature
06-04-2025
Date de début de contrat
03-11-2025
Directeur de thèse
OUNI Slim
Encadrement
Comité de suivi individuel de thèse tel que défini par l'ED IAEM.
Type de contrat
école doctorale
équipe
MULTISPEECHcontexte
Loria (UMR 7503 – https://www.loria.fr) is a leading computer science research lab founded in 1997, jointly managed by CNRS, the University of Lorraine, CentraleSupélec, and Inria. With 500 researchers across 28 teams, including 14 shared with Inria, it is one of the largest research centers in the Grand Est region, focusing on both fundamental and applied research. The Multispeech team (https://team.inria.fr/multispeech/) focuses on automatic speech processing, emphasizing multimodal aspects (acoustic, facial, articulatory, gestural, etc.). Their research explores the analysis, synthesis, and interdependencies of these modalities in human-human and human-machine interactions. The team develops machine learning models to extract linguistic, speaker, and environmental information and synthesize multimodal speech with limited labeled data. Their work aims to create a unified software platform for embodied voice assistants, with applications in language learning and medical assistance. The ANR SYNCOGEST project is a collaboration between LORIA (Univ. Lorraine), Praxiling (Univ. Paul-Valéry Montpellier 3), and EuroMov DHM (Univ. Montpellier). This PhD offer is provided by the ENACT AI Cluster and its partners. Find all ENACT PhD offers and actions on https://cluster-ia-enact.ai/.spécialité
Informatiquelaboratoire
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Mots clés
Communication multimodale, Gestes co-verbaux, Deep Learning, Agents conversationnels
Détail de l'offre
** Présentation **
Le langage verbal est intrinsèquement accompagné de mouvements des mains, de la tête et du corps qui contribuent significativement à la transmission du sens (McNeill 1992, 2005 ; Kendon 2004). Dans le contexte du développement d'agents conversationnels virtuels (ECAs), comprendre et modéliser ces composantes multimodales complexes est un défi majeur pour parvenir à une communication humain-machine crédible (Cassel et al. 2000). Un objectif central de la recherche en génération de gestes co-verbaux est de créer une gestualité qui reproduit fidèlement les mouvements humains ('human-likeness') tout en étant parfaitement adaptée au contexte du discours ('speech appropriateness').
Cette thèse s'inscrit dans le cadre du projet ANR SYNCOGEST, qui vise à explorer la relation complexe entre gestes et parole en adoptant une approche pluridisciplinaire. L'objectif principal de SYNCOGEST est de développer des modèles génératifs pour doter les ECAs d'une gestualité plus naturelle et plus efficace en contexte de production de discours.
** Objectifs **
Cette thèse explore la modélisation du lien complexe entre parole et geste en développant une approche multimodale. En combinant l'analyse typologique des gestes, réalisée par des techniques de clustering basées sur des embeddings de descriptions non expertes, avec des annotations expertes et des représentations multimodales (texte, audio, classe de geste), cette recherche vise à développer un modèle robuste pour prédire et générer automatiquement des gestes co-verbaux pertinents.
À partir d'un corpus de gestes co-verbaux partiellement annoté (description simple et factuelle des gestes), nous chercherons à prédire les types de gestes appropriés pour un énoncé donné. Les gestes seront d'abord regroupés selon la similarité de leurs descriptions, à l'aide de grands modèles de langage (LLMs) ou de modèles de type BERT (Devlin et al., 2019), qui transformeront ces descriptions en représentations vectorielles. Ces regroupements seront ensuite confrontés aux annotations fonctionnelles des experts pour établir des correspondances avec les catégories fonctionnelles des gestes. Enfin, une représentation multimodale, combinant texte, audio et classe de geste, sera construite en utilisant des modèles d'apprentissage contrastif comme CLIP (Radford et al., 2021). Cette approche enrichira les modèles existants en prenant en compte à la fois l'analyse typologique et les annotations expertes.
Cette représentation multimodale servira d'entrée pour la génération des gestes en s'appuyant sur des modèles génératifs avancés. Nous étudierons des alternatives aux modèles de diffusion qui, bien que performants, présentent une complexité trop élevée pour une utilisation dans un ECA. Par exemple, l'association de mécanismes attentionnels et de Graph Neural Networks (GNN) (Liu et al., 2019; Wu et al., 2020) avec un décodeur basé sur une architecture de type Flow (Kingma et al., 2016) s'est révélée pertinente pour structurer et interpréter les données de manière plus efficace. Les travaux de cette thèse pourront tirer parti des recherches menées au sein de l'équipe avec cette approche pour la génération de gestes co-verbaux (Abel et al., 2025). Le système développé sera ensuite utilisé pour animer un avatar 3D, assurant ainsi la synchronisation des gestes avec la parole.
Keywords
Multimodal communication, Co-verbal gesture, Deep Learning, Conversational agents
Subject details
** Presentation ** Verbal language is inherently accompanied by hand, head, and body movements that significantly contribute to conveying meaning (McNeill 1992, 2005; Kendon 2004). In the context of developing Embodied Conversational Agents (ECAs), understanding and modeling these complex multimodal components is a major challenge in achieving credible human-machine communication (Cassel et al. 2000). A central goal of research on co-speech gesture generation is to create gestures that faithfully reproduce human movements (“human-likeness”) while being perfectly suited to the speech context (“speech appropriateness”). This PhD thesis is part of the ANR SYNCOGEST project, which aims to explore the intricate relationship between gestures and speech through a multidisciplinary approach. The main objective of SYNCOGEST is to develop generative models to enhance ECAs with more natural and effective gestural behaviors in speech production contexts. ** Objectives ** This thesis investigates the modeling of the complex relationship between speech and gesture by developing a multimodal approach. By combining typological gesture analysis—performed using clustering techniques based on embeddings of non-expert gesture descriptions—with expert annotations and multimodal representations (text, audio, gesture class), this research aims to develop a robust model for predicting and automatically generating relevant co-speech gestures. Using a partially annotated corpus of co-speech gestures (with simple and factual gesture descriptions), we will seek to predict the appropriate gesture types for a given utterance. Gestures will first be grouped based on the similarity of their descriptions using Large Language Models (LLMs) or BERT-type models (Devlin et al., 2019), which will transform these descriptions into vector representations. These clusters will then be compared to expert functional annotations to establish correspondences with functional gesture categories. Finally, a multimodal representation combining text, audio, and gesture class will be built using contrastive learning models such as CLIP (Radford et al., 2021). This approach will enrich existing models by incorporating both typological analysis and expert annotations. This multimodal representation will serve as input for gesture generation using advanced generative models. We will explore alternatives to diffusion models, which, despite their high performance, are computationally too complex for real-time ECA applications. For instance, combining attention mechanisms and Graph Neural Networks (GNNs) (Liu et al., 2019; Wu et al., 2020) with a Flow-based decoder architecture (Kingma et al., 2016) has proven to be effective in structuring and interpreting data more efficiently. The thesis will build upon research conducted within the team using this approach for co-speech gesture generation (Abel et al., 2025). The developed system will then be used to animate a 3D avatar, ensuring proper synchronization between gestures and speech.
Profil du candidat
Le/la candidat·e doit être titulaire d'un Master ou équivalent en informatique, de préférence avec une spécialisation en intelligence artificielle. Une excellente maîtrise du deep learning est indispensable.
Candidate profile
The candidate must hold a Master's degree or equivalent in Computer Science, preferably with a specialization in Artificial Intelligence. A strong expertise in deep learning is essential.
Référence biblio
• Abel, (2025). PhD thesis, Co-speech gesture synthesis: Towards a controllable and interpretable model using a graph deterministic approach.
• Cassel, J., Sullivan, J., Prevost, S., & Churchill, E. (2000). Embodied conversational agents. MIT Press.
• Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
• Kendon, A. (2004). Gesture: Visible action as utterance. Cambridge University Press.
• Kingma, D. P., Salimans, T., Jozefowicz, R., Chen, X., Sutskever, I., & Welling, M. (2016). Improving variational inference with inverse autoregressive flow. In 29th Conf. NIPS 2016, Barcelona, Spain, pp. 4743–4751.
• Liu, J., Kumar, A., Ba, J., Kiros, J., & Swersky, K. (2019). Graph normalizing flows. Advances in Neural Information Processing Systems, 32.
• McNeill, D. (1992). Hand and mind: What gestures reveal about thought. University of Chicago Press.
• McNeill, D. (2005). Gesture and thought. University of Chicago Press.
• Radford, A., Kim, J. W., Xu, C., Tribble, I., Sucar, S., Metz, L., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020.
• Wu, Z., Pan, S., Chen, F., Long, G., Zhang, C., & Philip, S. Y. (2020). A comprehensive survey on graph neural networks. IEEE transactions on neural networks and learning systems, 32(1), pp. 4–24.