*

Construction d'un système conversationnel pour un accès multi-modal à un corpus

Offre de thèse

Construction d'un système conversationnel pour un accès multi-modal à un corpus

Date limite de candidature

12-05-2024

Date de début de contrat

01-10-2024

Directeur de thèse

LIEBER Jean

Encadrement

Co-encadrement par les 2 co-encadrants. Réunion régulière avec les historiens des Archives Henri Poincaré

Type de contrat

Concours pour un contrat doctoral

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

ORPAILLEUR

contexte

La correspondance Henri Poincaré est un corpus d'environ 2000 lettres envoyées ou reçues par ce célèbre mathématicien et qui est maintenu par le laboratoire AHP-PReST. Ces lettres ont été numérisées, retranscrites en texte clair et annotées sémantiquement en RDFS. Les annotations d'une lettre décrivent des informations générales sur la lettre (expéditeur, destinataire, date de rédaction, etc.) ainsi que sur son contenu (sujets, liens vers d'autres lettres, etc.), liens vers d'autres lettres, etc.) Ce corpus est accessible via un site web et une interface de requête SPARQL est utilisée pour l'interroger [1]. La difficulté d'utiliser SPARQL pour des utilisateurs qui ne sont pas des informaticiens et la nécessité de connaître le vocabulaire utilisé dans les annotations ont conduit à la mise en place d'un certain nombre d'outils. dans les annotations ont conduit à plusieurs développements d'interfaces utilisateurs spécifiques [2]. En outre, l'interrogation classique est également basée sur l'hypothèse que l'utilisateur sur l'hypothèse que l'utilisateur a une idée claire et formelle de la requête au début du processus, alors qu'un utilisateur peut n'avoir au départ qu'une idée générale ou vague qu'il faut préciser. Cela a conduit, au cours des dernières années, à la mise en œuvre d'un système d'interrogation conversationnel, à la mise en œuvre d'un système d'interrogation conversationnel qui organise hiérarchiquement les lettres, en utilisant une formelle [3] sur les propriétés des lettres, sur la base du système CreChainDo [4]. L'utilisateur peut interagir avec ce système pour spécifier ses besoins sur la base des regroupements de propriétés, et ainsi effectuer une recherche itérative dans le corpus pour découvrir des liens entre les différents éléments des lettres. Cependant, ce système n'exploite actuellement que les métadonnées intégrées dans les annotations sémantiques, mais l'objectif principal pour les historiens est d'analyser le contenu des lettres pour les regrouper en volumes thématiques. Cinq volumes ont déjà été publiés (par exemple, lettres aux mathématiciens, lettres aux géodésiens). Pour ce faire, il faut explorer le texte intégral des lettres, tout en acquérant des connaissances sur les concepts (fonctions mathématiques, institutions, personnes, etc.) concernés par une étude. L'objectif de la thèse est l'étude de la mise en oeuvre d'un système qui aide les historiens à construire une analyse des lettres sur un sujet donné.

spécialité

Informatique

laboratoire

LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Mots clés

Ingénierie des connaissances, système conversationnel, construction d'ontologie, traitement automatique des langues

Détail de l'offre

L'objectif de la thèse est de concevoir un système de recherche conversationnelle pour exploiter un corpus en utilisant plusieurs modalités de manière complémentaire.
Un tel système doit être implémenté et déployé pour aider les historiens des Archives Henri Poincaré à construire une analyse de la correspondance d'Henri Poincaré sur un sujet donné (par exemple Henri Poincaré et la recherche en algèbre ou la vie familiale d'Henri Poincaré).
Les trois modalités sont ici des annotations RDF, des textes bruts, mais aussi des expressions mathématiques retranscrites au format LaTeX.

Keywords

knowledge ingeniering, conversational system, ontology building, natural language processing

Subject details

The objective of the PhD is to design a conversational search system using several modalities in a complementary way. In particular, such a system has to be implemented and deployed to help historians in building analysis of the correspondence of Henri Poincaré on a given topic (e.g. Henri Poincaré and research in algebra or the family life of Henri Poincaré). The three modalities here are RDF annotations, plain texts, and also mathematical expressions that have been retranscribed in LaTeX format.

Profil du candidat

Le doctorant doit avoir des compétences en représentation des connaissances (RDF, SPARQL, ontologies, etc.) et en traitement automatique des langues. L'étude portant sur des textes en français, un niveau C1 en français est requis.
Des compétences en mathématiques sont souhaitées.

Candidate profile

The PhD student must have skills in knowledge representation (RDF, SPARQL, ontologies, etc.) and in natural language processing. As the study is related to texts in French, a at least French C1 level is required.
A skill in mathemathics is welcome.

Référence biblio

[1] O. Bruneau, S. Garlatti, M. Guedj, S. Laub ́e, and J. Lieber. SemanticHPST: Applying Semantic Web Prin-
ciples and Technologies to the History and Philosophy of Science and Technology. In Fabien Gandon,
Antoine Zimmermann, Catherine Faron-Zucker, John Breslin, Serena Villata, and Christophe Gu ́eret, edi-
tors, The Semantic Web: ESWC 2015 Satellite Events , volume 9341 of Lecture Notes in Computer Science,
pages 416–427, Portoroz, Slovenia, May 2015. Springer International Publishing.
[2] Olivier Bruneau, Nicolas Lasolle, Jean Lieber, Emmanuel Nauer, Siyana Pavlova, and Laurent Rollet. Ap-
plying and Developing Semantic Web Technologies for Exploiting a Corpus in History of Science: the
Case Study of the Henri Poincar ́e Correspondence. Semantic Web – Interoperability, Usability, Applicabil-
ity, 12(2):359–378, 2021.
[3] Bernhard Ganter, Gerd Stumme, and Rudolf Wille, editors. Formal Concept Analysis, Foundations and
Applications, volume 3626 of Lecture Notes in Computer Science. Springer, 2005.
[4] E. Nauer and Y. Toussaint. CreChainDo: an iterative and interactive Web information retrieval system
based on lattices. International Journal of General Systems, 38, 2009.