génération en langue naturelle : de la création des données à l'évaluation, en passant par la modélisation
natural language generation: from data creation to evaluation via modelling
Jury
Directeur de these - GARDENT - Claire - CNRS
Rapporteur - KRAHMER - Emiel - Tilburg University
Rapporteur - VAN DEEMTER - Kees - Utrecht University
CoDirecteur de these - PARMENTIER - Yannick - Université de Lorraine
Examinateur - GKATZIA - Dimitra - Edinburgh Napier University
école doctorale
IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES
Laboratoire
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Mention de diplôme
Informatique
100% VISIO
Loria, Campus Scientifique, BP 239
54506 Vandoeuvre-lès-Nancy
Mots clés
apprentisage profond,traitement automatique de langues,génération de la langue naturelle,génération à partir de données,réalisation de surface,évaluation,
Résumé de la thèse
La génération en langue naturelle (natural language generation, NLG) est le processus qui consiste à générer du texte dans une langue naturelle à partir de données d'entrée. Ces entrées peuvent prendre la forme de textes, de documents, d'images, de tableaux, de graphes (réseaux de connaissances), de bases de données, d'actes de dialogue, ou d'autres représentations sémantiques. Les méthodes récentes en NLG, principalement basées sur des modèles neuronaux, ont apporté des améliorations significatives.
Keywords
deep learning,natural language processing,natural language generation,data-to-text generation,surface realisation,evaluation,
Abstract
Natural language generation is a process of generating a natural language text from some input. This input can be texts, documents, images, tables, knowledge graphs, databases, dialogue acts, meaning representations, etc. Recent methods in natural language generation, mostly based on neural modelling, have yielded significant improvements in the field. Despite this recent success, numerous issues with generation prevail, such as faithfulness to the source, developing multilingual models, few-shot generation.