Offre de thèse
ENACT - Adapter les modèles de traitement automatique des langues et les modèles multimodaux pour aider les apprenant(e)s de langues à comprendre les expressions polylexicales
Date limite de candidature
10-04-2026
Date de début de contrat
01-10-2026
Directeur de thèse
CONSTANT Mathieu
Encadrement
The thesis will be co-supervised by Amalia TODIRASCU (Professor, LiLPa, Unistra). This PhD offer is provided by the ENACT AI Cluster and its partners. Find all ENACT PhD offers and actions on https://cluster-ia-enact.ai/.
Type de contrat
école doctorale
équipe
contexte
The PhD candidate will be based at ATILF (CNRS and Université de Lorraine, Nancy) but will work in close collaboration with LILPa (University of Strasbourg). The ATILF (Analyse et Traitement Informatique de la Langue Française) is a research unit in language sciences. This joint research unit (UMR 7118) has two supervisory bodies: the Centre National de la Recherche Scientifique (CNRS) and the Université de Lorraine (UL). The laboratory has 135 members, 6 research areas and 4 research support services. The ATILF's activities are structured around 3 disciplinary axes (Lexis | From syntax to discourse | Language teaching/learning and sociolinguistics) and 3 transversal methodological axes (Modelling, resources and computer processing | Field approaches | Diachrony). The ATILF relies on its strong dual expertise in linguistics and information technologies, which enables it to provide the public with numerous online platforms and tools, including several dictionaries and other reference resources and tools in our fields (ORTOLANG platform, CNRTL portal, Trésor de la Langue Française, Dictionnaire du Moyen Français). The PhD student will join the Natural Language Processing (NLP) research group under the 'Modelling, Resources, and Computational Processing' axis. The group explores language models' ability to encode linguistic phenomena (ex. ANR project SELEXINI) and applies NLP methods to specialized fields, including language learning (ex. ANR project STAR-FLE). The LILPa is a research unit (UR1339) of the University of Strasbourg, composed of 53 members and 23 Ph.D; candidates. The scientific activities are organised on 3 axes ('Lexicons, discours, Transpositions', 'Language and Speech' and 'Language and society'). LiLpa has strong expertise in linguistics, NLP, language learning and sociolinguistics and produces original resources (annotated corpus for less resourced languages, monolingual and multilingual lexicons, graded resources for second language (L2) learning). One of the ANR projects supported by LiLPa and including ATILF as partner, is STAR FLE aims to build NLP resources for French L2 language learners. The resources, such as French MWE lexicons are extracted from original texts, annotated with CECR level. Each MWE is associated with the CEFR level, automatically computed from the distribution of a graded corpus. The Interdisciplinary Thematic Institute LiRiC (www.liric.fr) develops projects aiming to more inclusive and innovative methods and resources for teaching. The Ph.D. project is related in to these projects, by providing images and additionnal LLM-based methods to help L2 learners in a multilingual context. This PhD offer is provided by the ENACT AI Cluster and its partners. Find all ENACT PhD offers and actions on https://cluster-ia-enact.ai/.spécialité
Sciences du langagelaboratoire
ATILF - Analyse et Traitement Informatique de la Langue Française
Mots clés
Grands modèles de langue, Petits modèles de langue, Expressions polylexicales, Apprentissage des langues L2, Génération d'images à partir de textes, Simplification et reformulation de définitions
Détail de l'offre
Cette thèse de doctorat explorera et évaluera des méthodes computationnelles pour l'acquisition du vocabulaire des expressions multi-mots (EM) dans un contexte de lecture. Les EM sont des séquences de plusieurs mots fonctionnant comme des unités (Constant et al., 2017). Leurs particularités lexicales, syntaxiques, sémantiques et pragmatiques (Savary et al., 2021 ; Kim & Baldwin, 2010) les rendent difficiles pour les apprenant(e)s L2. Pour améliorer l'apprentissage des langues, les EM doivent être expliquées et définies pour les apprenant(e)s, car leur sens ne peut pas être entièrement déduit de leurs composants : par exemple, 'donner sa langue au chat' signifiant abandonner, ou 'rire jaune' signifiant un rire forcé.
Les études en TAL liées à l'acquisition personnalisée du vocabulaire ont examiné des méthodes computationnelles pour mesurer la lisibilité des textes (Wilkens et al., 2022) et la complexité lexicale (North et al., 2023), ou pour créer des exercices et des aides ciblées, notamment des lexiques gradués alignés avec le Cadre européen commun de référence pour les langues (CECRL), comme Tack et al. (2016). En ce qui concerne les EM, de nombreux travaux théoriques en phraséodidactique (González-Rey, 2019) ont été publiés. Certaines méthodes pédagogiques proposent d'utiliser des images pour expliquer les EM (Kühn, 1996) ou des définitions et paraphrases (Milicevic & Hamel, 2007). Néanmoins, peu de ressources et d'outils gradués sur les EM existent à des fins d'apprentissage des langues, comme PhraseoText (González-Rey, 2019) ou EWA (Santos, 2023).
Par ailleurs, les grands modèles de langage (LLM) et les chatbots révolutionnent l'apprentissage des langues grâce à des dialogues adaptatifs (par exemple, Tyen et al., 2022), mais le soutien pour les langues non anglaises reste limité.
Le ou la doctorante développera et évaluera des méthodes pour automatiser la création de ressources basées sur les EM de manière dynamique, en fonction du profil de l'apprenant (par exemple, son niveau CECRL) et du contexte de lecture, en combinant des LLM textuels et multimodaux (Fu et al., 2025) dans une approche multilingue. Grâce aux LLM textuels, il sera possible de générer des explications et des définitions d'EM adaptées au niveau de l'apprenant pour faciliter l'acquisition du vocabulaire. Pour illustrer le sens des EM, on pourrait également générer ou sélectionner des images dans le contexte textuel spécifique, en se basant sur les explications et définitions obtenues.
Un défi important consistera à adapter les explications et définitions au niveau de l'apprenant(e) et, par conséquent, à identifier automatiquement leur complexité pour les reformulations, ainsi que le niveau CECRL de l'EM pour les sélectionner, par exemple en s'appuyant sur des méthodes supervisées et des LLM (Kelious et al., 2024). Pour améliorer les performances des LLM, on pourra fournir le profil de l'apprenant ainsi que des ressources lexicales graduées statiques pour plusieurs langues (par exemple, NT2Lex (Tack et al., 2016) pour le néerlandais, SVALex (François et al., 2016) pour le suédois, PolylexFLE (Todirascu et al., 2024) pour le français). Le ou la doctorante développera et évaluera des méthodes pour agréger et intégrer ces différentes sources d'informations multilingues afin d'améliorer les performances et la précision des LLM.
En parallèle, le ou la doctorant(e) étudiera l'utilisation de petits modèles de langage (SLM) afin de créer des ressources dynamiques accessibles aux apprenants de langues, pouvant être utilisées sur des ordinateurs portables avec un coût écologique réduit. Les méthodes testées pourraient inclure l'affinage (fine-tuning), l'apprentissage multilingue par transfert, les méthodes ensemblistes et les stratégies multi-agents.
Keywords
Large Language Models, Small Language Models, multiword expressions, L2 language learners, text-to-image generation, definition simplification and rephrasing
Subject details
The heterogeneity of levels of learners is a challenge for the teachers in terms of personalized instruction and assessment. Natural language processing (NLP) has demonstrated significant potential for enhancing language learning, particularly within the field of Computer-Assisted Language Learning. The PhD thesis will explore and evaluate computational methods for vocabulary acquisition of Multiword Expressions (MWE) in a reading context. MWEs are sequences of several words functioning as single units (Constant et al., 2017). Their lexical, syntactic, semantic, and pragmatic idiosyncrasies (Savary et al., 2021; Kim & Baldwin, 2010) make them challenging for L2 learners. To enhance language learning, MWEs should be explained and defined to learners as their meaning cannot be fully derived from their parts: e.g. donner sa langue au chat (FR), lit. 'give her/his tong to the cat' trans. 'give up', rire jaune (FR) lit. 'laugh yellow' trans. 'hollow laugh'. NLP studies related to personnalized vocabulary acquisition have examined computational methods for measuring text readability (Wilkens et al 2022) and word complexity (North et al. 2023) or for creating targeted exercises and learning materials, particularly graded lexicons aligned with the Common European Framework of Reference for Languages (CEFR), e.g. Tack et al (2016). Regarding MWEs, many theoretical works in phraseodidactics (González-Rey, 2019) have been published. Notably, some pedagogical methods propose to provide images to explain MWEs (Kühn, 1996) or definitions and paraphrases (Milicevic & Hamel, 2007). Nonetheless, only few graded MWE resources and tools exist for language learning purposes, such as PhraseoText (González-Rey, 2019), EWA (Santos 2023). In addition, LLMs and chatbots are revolutionizing language learning with adaptive dialogues (e.g. Tyen et al., 2022), but support for non-English languages is still limited. The PhD candidate will develop and evaluate methods to automate the process of creating such MWE-based resources in a dynamic way according to the learner's profile (e.g. CEFR level) and reading context, by combining textual and multimodal LLMs (Fu, et al, 2025) in a multilingual approach. With the help of textual LLMs, one can generate explanations and definitions of MWEs adapted for the learner's level to support vocabulary acquisition. For instance, the research may build on a paraphrase dataset that is available for PARSEME 2.0 Multilingual Shared Task. To illustrate the sense of the MWEs, one can also generate or select images in the specific textual context, based on the resulting explanations and definitions. This study could rely on several datasets that are available to relate static images with specific MWE senses (Pickard et al, 2025) within the Semeval shared task AdMIRe (Advancing Multimodal Idiomaticity Representation). One important challenge will be to adapt explanations and definitions to the learner's level and therefore to automatically identify their complexity for rephrasing purposes as well as the CEFR level of the MWE for selection purposes, e.g. relying on supervised methods and LLMs (Kelious et al, 2024). To improve LLM performances, one can provide the learner's profile, and static graded lexical resources for several languages (e.g. NT2Lex (Tack et al, 2016) for Dutch, SVALex (François et al, 2016) for Swedish , PolylexFLE (Todirascu et al, 2024) for French). The Ph.D. candidate will develop and evaluate methods to aggregate and integrate these diverse multilingual information sources to enhance the performance and accuracy of LLMs. Alongside LLMs, the PhD candidate shall investigate the use of Small Language Models (SLM) in order to create dynamic resources accessible for language learners which could be used on laptops with smaller ecological cost. Tested methods could include fine-tuning, multilingual transfer learning, ensemble methods, multi-agent strategies.
Profil du candidat
- Être titulaire ou en voie d'obtenir un master (ou équivalent) en traitement automatique des langues (TAL), en sciences des données, en sciences du langage ou en informatique
- Excellents résultats académiques
- Très bonnes compétences en programmation et en linguistique
- Excellente maîtrise des grands modèles de langage (LLM) et autres modèles de TAL
- Excellente maîtrise de l'anglais scientifique
- Idéalement, bonne connaissance de la langue française
Candidate profile
- Preparing or having already a master degree (or equivalent) in NLP, data science, language sciences or computer science
- excellent academic results
- very good programming and linguistics skills
- very good knowledge of LLMs and other NLP models
- very good knowledge of scientific English language
- ideally good knowledge of French language
Référence biblio
Baldwin T., and Su Nam K. (2010). Multiword expressions. In Handbook of Natural Language Processing, 2nd edition. CRC Press, Taylor and Francis Group, Boca Raton, FL, pages 267–292
Constant M., Eryiǧit G., Monti J., van der Plas L., Ramisch C., Rosner M., and Todirascu A.. (2017). Survey: Multiword Expression Processing: A Survey. Computational Linguistics, 43(4):837–892.
François T., and Gala N. (2024). Graded resources for learning and teaching foreign languages: An overview. ITL-International Journal of Applied Linguistics, 175(1) : 8-24.
François T., Volodina E., Pilán I., Tack A. (2016). SVALex: a CEFR-graded lexical resource for Swedish foreign and second language learners. Proceedings of LREC 2016, Slovenia
Santos D. (2023). Apprentissage d'unités lexicales à l'aide de deux applications mobiles : analyse comparative d'Ewa et Anglaise. ALSIC - Apprentissage des Langues et Systèmes d'Information et de Communication
Fu P., Guan T., Wang Z., Guo Z., Duan C., Sun H., Chen B., Ma J., Jiang Q., Zhou K., Luo J. (2025). Multimodal Large Language Models for Text-rich Image Understanding: A Comprehensive Review, Findings of the Association for Computational Linguistics: ACL 2025, pages 19941–19958, July 27 - August 1, 2025 ©2025 Association for Computational Linguistics
González-Rey I. (2019). La Phraséodidactique : État des lieux, Repères DoRiF 18, Roma juillet 2019
Kelious A., Constant M., and Coeur C. (2024). Complex Word Identification: A Comparative Study between ChatGPT and a Dedicated Model for This Task. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 3645-3653.
North K., Zampieri M., Shardlow M. (2023). Lexical complexity prediction: An overview. ACM Computing Surveys.
Kühn P. (1996). Redewendungen – nur im Kontext! Kritische Anmerkungen zu Redewendungen in Lehrwerken. Fremdsprache Deutsch 15: 10–16.
Milićević J. and Hamel M.-J. (2007). Un dictionnaire de reformulation pour les apprenants du français langue seconde. Revue de l'Université de Moncton, 145-167.
Pickard T., Villavicencio A., Mi M., He W., Phelps D., Scarton C., and Idiart M. (2025). AdMIRe: Advancing Multimodal Idiomaticity Representation (SemEval-2025 Task 1) - Labelled Datasets.
Savary A., Zeman D., Barbu Mititelu V., Barreiro A., Caftanatov O., de Marneffe M.-C., Dobrovoljc K., Eryiğit G., Giouli V., Guillaume B., Markantonatou S., Melnik N., Nivre J., Ojha A. K., Ramisch C., Walsh A., Wójtowicz B., and Wróblewska A. (2024). UniDive: A COST Action on universality, diversity and idiosyncrasy in language technology. In Proceedings of the 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages @ LREC-COLING 2024 (pp. 372–382). ELRA & ICCL.
Tack A., François T., Desmet P. and Fairon, C. (2018). NT2Lex: A CEFR-Graded Lexical Resource for Dutch as a Foreign Language Linked to Open Dutch WordNet. In Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building Educational Applications (pp. 137-146).
Todirascu A., François T., and Cargill M. (2024). PolyLexFLE: A MWE database for French L2 language learners. International Journal of Applied Linguistics, 175(1), 77–102.
Tyen G., Brenchley M., Caines A., and Buttery P. (2022). Towards an open-domain chatbot for language practice. In Proceedings of the 17th, Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2022), pages 23 249, Seattle, Washington. Association for Computational Linguistics.
Wilkens R., Alfter D., Wang X., Pintard A., Tack A., Yancey K. P., and François T. (2022). FABRA: French Aggregator-Based Readability Assessment toolkit. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 1217–1233, Marseille, France. European Language Resources Association.

