*

ENACT Cartographie diachronique des données bibliographiques : Exploitation des techniques avancées de traitement du langage naturel, de la visualisation graphique et des techniques de suivi temporel

Offre de thèse

ENACT Cartographie diachronique des données bibliographiques : Exploitation des techniques avancées de traitement du langage naturel, de la visualisation graphique et des techniques de suivi temporel

Date limite de candidature

15-04-2025

Date de début de contrat

01-09-2025

Directeur de thèse

LAMIREL Jean-Charles

Encadrement

Le co-encadrement de la thèse sera opéré par Guillaume URBANCZYK, Chargé de Recherche CNRS-IJL.

Type de contrat

ANR Financement d'Agences de financement de la recherche

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

SYNALP

contexte

L'outil DELPHI sera au cœur de la méthodologie de recherche, fournissant un pipeline qui combine le web scraping intelligent, le raffinement itératif avec des modèles de langage et la visualisation dynamique via des bases de données graphiques.

spécialité

Informatique

laboratoire

LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Mots clés

Traitement Automatique des Langues, Grands Modèles de Langues, Bibliographie Cartographique, Visualisation de Graphes Relationnels, Clustering Sémantique, Analyse Diachronique

Détail de l'offre

Le projet de doctorat proposé, intitulé «Cartographie diachronique des données bibliographiques : Exploitation des techniques avancées de traitement du langage naturel, de la visualisation graphique et des techniques de suivi temporel», vise à développer des méthodes innovantes pour l'extraction automatique, la désambiguïsation et la visualisation des idées et des relations sémantiques au sein de corpus bibliographiques vastes et hétérogènes, et le suivii diachronique des changements d'informations .

Le projet s'articulera autour de quatre tâches clés :

1. Extraction d'idées : le candidat mettra en œuvre des techniques avancées de traitement automatique du langage naturel (TALN), telles que la modélisation de sujets (par exemple, [BERTopic] ou CFMf [Lamirel 2023]) et la reconnaissance d'entités nommées (NER), afin d'extraire systématiquement les idées fondamentales et les concepts sémantiques des données bibliographiques. L'accent sera mis sur la garantie d'une gestion robuste des données hétérogènes et multidimensionnelles, en utilisant diverses techniques de recherche [Merritt 2023].

2. Désambiguïsation des idées : Pour résoudre les ambiguïtés inhérentes aux données textuelles, le candidat étudiera une approche hybride combinant le traitement automatique du langage naturel (TALN) avec l'inférence du langage naturel (ILN) et des techniques de clustering. Il s'appuiera notamment sur l'approche de maximisation des traits décrite par [Lamirel 2020], visant à désambiguïser efficacement les chevauchements sémantiques et à classer avec précision les idées extraites. L'évaluation expérimentale se concentrera sur la précision, le rappel et la résilience face à l'hétérogénéité des données.

3. Visualisation synthétique : Le candidat concevra et développera des outils de visualisation interactifs et conviviaux, basés sur des graphes, pour représenter des relations sémantiques multidimensionnelles à différentes échelles. En s'appuyant sur les technologies existantes de traitement de graphes et en adoptant des principes de conception visuelle minimales, le candidat veillera à ce que les visualisations restent claires et intuitives, même pour des ensembles de données volumineux. Les outils comprendront des fonctionnalités dynamiques qui permettront aux utilisateurs d'explorer les relations de manière diachronique et d'affiner de manière itérative les visualisations en fonction de leurs besoins de recherche spécifiques.

4. Analyse diachronique : le candidat expérimentera des méthodes pour mettre en évidence de manière synthétique les changements dans la représentation des connaissances au fil du temps. Ce processus pourrait impliquer la transposition de méthodes de suivi spécifiques telles que le raisonnement bayésien non supervisé initialement proposé par [Lamirel 2012] aux représentations graphiques.

Keywords

Natural Language Processing, Neural Language Models, Bibliographic Cartography, Relational Graph Visualization , Semantic Clustering, Diachronic Analysis

Subject details

The proposed doctoral project, titled 'Diachronic Bibliographic Data Cartography: Leveraging Advanced NLP, Graph-Based Visualization and Temporal Tracking Techniques' seeks to develop innovative methods for the automatic extraction, disambiguation, and visualization of ideas and semantic relationships within large and heterogeneous bibliographic corpora including tracking of diachronic information changes. The project will be structured around four key tasks: 1. Idea Extraction: The candidate will implement advanced NLP techniques such as topic modeling (e.g., [BERTopic] or CFMf [Lamirel 2023]) and Named Entity Recognition (NER) to systematically extract core ideas and semantic concepts from bibliographic data. Emphasis will be placed on ensuring robust handling of heterogeneous and multidimensional data, making use of various retrieval techniques [Merritt 2023]. 2. Idea Disambiguation: To resolve ambiguities inherent in textual data, the candidate will investigate a hybrid approach combining NLP with Natural Language Inference (NLI) and clustering techniques. They will particularly leverage the feature maximization approach outlined by [Lamirel 2020], aiming to efficiently disambiguate semantic overlaps and accurately classify extracted ideas. Experimental evaluation will focus on precision, recall, and resilience against data heterogeneity. 3. Synthetic Visualization: The candidate will design and develop interactive, user-friendly graph-based visualization tools to represent multidimensional semantic relationships at various scales. Building on existing graph-database technologies and adopting minimalist visual design principles, the candidate will ensure that visualizations remain clear and intuitive, even for large datasets. The tools will include dynamic features that allow users to explore diachronic relationships and iteratively refine visualizations based on their specific research needs. 4. Diachronic analysis: The candidate will experiment with methods to highlight in a synthetical, way changes in the knowledge representation over time. This process could imply transposing specific tracking methods like unsupervised Bayesian reasoning initially proposed by [Lamirel 2012] to graph representations.

Profil du candidat

Profil et compétences requises :

Le candidat idéal pour ce doctorat doit posséder :

• Une solide expérience en traitement du langage naturel, avec une expérience avérée des méthodes d'apprentissage automatique supervisées et non supervisées.
• Une bonne compréhension des cadres d'apprentissage automatique, en particulier en TALN et en clustering (par exemple, BERTopic, clustering agglomératif).
• Une maîtrise des langages de programmation (Python) et des bibliothèques (PyTorch, HuggingFace Transformers, LangChain).
• Connaissance des bases de données relationnelles ou graphiques (par exemple, Neo4j) et des cadres de visualisation des données (par exemple, D3.js, Cytoscape).
• Capacité à mener des recherches indépendantes, à analyser rigoureusement les résultats et à proposer des solutions innovantes.
• Solides compétences analytiques, curiosité scientifique et excellentes capacités de communication écrite et orale.
• Bonne maîtrise de l'anglais (écrit et parlé), indispensable pour publier dans des revues internationales et des actes de conférences.
• La maîtrise de plusieurs langues ou une compréhension générale approfondie de la structure des langues peut être très utile.

La préférence sera donnée aux candidats ayant de solides bases en théorie de l'apprentissage automatique, une expérience préalable des bases de données bibliographiques et une expérience dans des environnements universitaires ou de recherche.

Candidate profile

Profile and Skills Required:

The ideal candidate for this PhD should possess:

• A strong background in Natural Language Processing, with proven experience in both supervised and unsupervised machine learning methods.
• Good understanding of machine learning frameworks, particularly in NLP and clustering (e.g., BERTopic, agglomerative clustering).
• Proficiency in programming languages (Python) and libraries (PyTorch, HuggingFace Transformers, LangChain).
• Familiarity with relational or graph databases (e.g., Neo4j) and data visualization frameworks (e.g., D3.js, Cytoscape).
• Capacity to conduct independent research, rigorously analyze results, and propose innovative solutions.
• Strong analytical skills, scientific curiosity, and excellent written and oral communication abilities.
• Good command of English (written and spoken), essential for publishing in international journals and conference proceedings.
• Speaking multiple languages, or having a generally deeper understanding of the structure of languages can be very helpful.

Candidates with a solid foundation in machine learning theory, prior exposure to bibliographic databases, and experience in academic or research environments will be given preference.

Référence biblio

• [AdAstra] : https://dci.dci-gitlab.cines.fr/webextranet/
• [BERTopic] https://maartengr.github.io/BERTopic/index.html#common
• I. Chalkidis, I. Androutsopoulos, and A. Michos, “Extracting contract elements”, Proceedings of the 16th edition of the International Conference on Artificial Intelligence and Law, pp. 19–28, 2017.
• [Claude] https://docs.anthropic.com/en/docs/about-claude/models/all-models
• [DeepSeek-V3] Technical Report (2024). https://arxiv.org/html/2412.19437v1
• [DeepSeek-R1] Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2501.12948
• DELPHI : cf. joint document
• Dugue, N., Lamirel J.-C., Perez A. (2018). Bringing a feature selection metric from machine learning to complex networks. International Conference on Complex Networks.
• [Explor] : https://explor.univ-lorraine.fr/explor/ressources-materielles/
• [GPT series] https://platform.openai.com/docs/models
• [ISTEX] : https://data.istex.fr/
• [Jean Zay] : https://www.cnrs.fr/fr/presse/jean-zay-le-supercalculateur-le-plus-puissant-de-france-pour-la-recherche
• Lamirel, J.-C. (2012). A new approach for automatizing the analysis of research topics dynamics: application to optoelectronics research. Scientometrics, vol. 93(1), pages 151-166.
• Lamirel, J.-C. et al. (2014). Federating clustering and labeling capabilities based on feature maximization. Neurocomputing, 147, 136-146.
• Lamirel, J.-C. et al. (2020). An overview of the history of Science of Science in China based on bibliographic and citation data: a new method based on clustering with feature maximization and contrast graphs. Scientometrics.
• Lamirel, J.-C. et al. (2023). The CFMf Topic-Modeling Method Based on Neural Clustering with Feature Maximization: Comparison with LDA. Proceedings of ISSI 2023.
• Merritt, R. (2023). What Is Retrieval-Augmented Generation (RAG)? NVIDIA GTC https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/
• Mikolov, T. et al. (2013). Distributed representations of words and phrases and their compositionality. NeurIPS.
• [ROMEO] : https://romeo.univ-reims.fr/welcome