Offre de thèse
Génération de langage des signes à partir de la parole de bout en bout
Date limite de candidature
12-09-2024
Date de début de contrat
01-10-2024
Directeur de thèse
OUNI Slim
Encadrement
- en contact quotidien par messagerie (mattermost, etc.) - Des réunions hebdomadaires (voire plus, selon les périodes de l'année) - Faire une présentation de l'avancement au moins une fois par trimestre.
Type de contrat
école doctorale
équipe
MULTISPEECHcontexte
Motivation and context Sign language generation involves translating the spoken or written language into the visual-manual modality of sign language, effectively converting auditory or text information into corresponding sign language gestures and expressions. An automatic translation system for this task requires access to a sufficiently large parallel corpus of aligned speech and sign data. Moreover, previous work on sign language translation has shown that having an intermediate-level presentation of sign meta-symbols, known as gloss, is beneficial for translation performance. Gloss is essentially a morpheme-by-morpheme 'translation' using English words. However, the field of sign language research does not have large-scale gloss-annotated corpora that would allow for the immediate use of a sign language generation system. Most existing corpora come from small discourse domains with a limited vocabulary, such as weather forecasts [1]. These corpora often present inherent problems with the acquisition itself, such as low resolution, motion blur, and interlacing artifacts. Moreover, a main limitation of existing sign language generation systems is that the introduction of any intermediate representation removes some information from the source message. More precisely, the intermediation of text, obtained from input speech using automatic recognition systems, removes prosodic information carried by speech. The intermediation of glosses removes information about the inflection of the execution on signs with respect to their citation form.spécialité
Informatiquelaboratoire
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Mots clés
Deep-learning, Langue des signes
Détail de l'offre
Le projet se concentre sur la génération de langage des signes à partir de la parole, sans recourir à des annotations intermédiaires telles que le gloss. Actuellement, les systèmes de génération existants utilisent souvent des annotations intermédiaires, ce qui entraîne une perte d'informations. L'objectif principal est de créer un modèle capable de traduire directement la parole continue en langage des signes, en produisant des animations photoréalistes à partir d'un avatar 3D. Pour cela, le projet exploite les avancées récentes en matière de modélisation de la parole à grande échelle, d'apprentissage auto-supervisé/non supervisé et de traitement automatique du langage naturel. En utilisant un modèle générateur conditionnel basé sur un modèle de diffusion, le projet vise à améliorer la qualité de la génération de gestes tout en explorant l'impact de l'apprentissage par transfert pour surmonter les défis liés aux données limitées. Enfin, le projet cherche à mieux comprendre le processus de production des gestes afin de développer des modèles plus interprétables et capables de générer des gestes plus naturels et expressifs.
Keywords
Deep-learning, Sign language
Subject details
The project focuses on sign language generation from speech, without resorting to intermediate annotations such as gloss. Currently, existing generation systems often use intermediate annotations, resulting in information loss. The main objective is to create a model capable of directly translating continuous speech into sign language, producing photorealistic animations from a 3D avatar. To achieve this, the project leverages recent advances in large-scale speech modeling, self-supervised/unsupervised learning, and natural language processing. By using a conditional generative model based on a diffusion model, the project aims to improve the quality of gesture generation while exploring the impact of transfer learning to overcome challenges related to limited data. Lastly, the project seeks to better understand the gesture production process to develop more interpretable models capable of generating more natural and expressive gestures.
Profil du candidat
Les qualifications préférées pour les candidats comprennent une expertise en apprentissage automatique et une maîtrise des cadres de travail en apprentissage profond, en particulier PyTorch. Une expérience dans le traitement statistique du signal (en particulier de la parole) et/ou la vision par ordinateur est un atout.
Candidate profile
Preferred qualifications for candidates include expertise in machine learning and proficiency with deep learning frameworks, particularly PyTorch. A background in statistical signal processing (especially speech) and/or computer vision is a plus.
Référence biblio
[1] H. Cooper and R. Bowden, Learning signs from subtitles: A weakly supervised approach to sign language recognition, in 2009 IEEE Conference on Computer Vision and Pattern Recogni- tion, pp. 2568-2574, 2009.
[2] Benjia Zhou, Zhigang Chen, Albert Clapés, Jun Wan, Yanyan Liang, Sergio Escalera, Zhen Lei, and Du Zhang. 2023. Gloss-free sign language translation: Improving from visual-language pretraining. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 20871–20881.
[3] Guo, Z., He, Z., Jiao, W., Wang, X., Wang, R., Chen, K., Tu, Z., Xu, Y. and Zhang, M., 2024. Unsupervised Sign Language Translation and Generation. arXiv preprint arXiv:2402.07726.
[4] Fang, S., Sui, C., Zhang, X., Tian, Y. SignDiff: Learning Diffusion Models for American Sign Language Production. arXiv preprint arXiv:2308.16082, 2023.
[5] L. Yang, Z. Zhang, Y. Song, S. Hong, R. Xu, Y. Zhao, Y. Shao, W. Zhang, B. Cui, and M. H. Yang, Diffusion models: A comprehensive survey of methods and applications arXiv preprint arXiv:2209.00796, 2022.