Offre de thèse
(ENACT) Analyse automatique des biais dans les publications scientifiques
Date limite de candidature
24-04-2026
Date de début de contrat
01-10-2026
Directeur de thèse
FORT Karen
Encadrement
Co-endrante : Aurélie Névéol, LISN-CNRS -- aurelie.neveol@lisn.fr Cette thèse est co-financée par le PEPR AIKO (AI for publication knowledge) et sera réalisée au LORIA, au sein de l'équipe Sémagramme.
Type de contrat
école doctorale
équipe
SEMMAGRAMMEcontexte
Inadequate reporting is an understudied cause of bias in research [Boutron et al. 2010, Macleod et Al. 2014]. Problems include, but are not limited to, non-reporting or delayed reporting of studies, omissions from or misinterpretation of results in abstracts, distorted reporting and interpretation of study results to convince the reader of benefits not supported by the main findings. These issues have been studied in biomedical research with publication guidelines being proposed to improve the quality of reporting [Ghimire et al. 2014]. There is much at stake here, as inadequate reporting can negatively impact the trust of the research community and society in scientific research. Risks also include poor decision-making due to distorted results, such as deployment of systems that are not accurate enough for their intended usage because benefits have been over-estimated and drawbacks minimized or even not considered at all [Buolamwini et al. 2018]. Natural Language processing can contribute further interventions through the development of automatic text analysis to identify scientific claims and contrast them with research results [Koroleva et al. 2020, Bleuze, 2024]. Building on this recent work, there is a need to advance the automatic characterization of claims and results by leveraging content from both the abstracts and full text scientific publications as well as other types of sources such as figures, and tables.spécialité
Informatiquelaboratoire
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Mots clés
traitement automatique des langues, biais, LLM, publications scientifiques, éthique, science responsable
Détail de l'offre
Le rendu faussé des résultats est une cause de biais en recherche encore peu étudiée [Boutron et al., 2010]. Les problèmes rencontrés incluent la non-publication ou la publication tardive d'études, les omissions ou les interprétations erronées des résultats dans les résumés, ainsi que la présentation et l'interprétation biaisées des résultats visant à convaincre le lecteur de bénéfices non étayés par les principaux résultats. L'enjeu est de taille, car une publication faussée peut nuire à la confiance de la communauté scientifique et de la société envers la recherche. Parmi les risques figurent également le déploiement de systèmes insuffisamment précis pour l'usage prévu, car les bénéfices ont été surestimés et les inconvénients minimisés, voire ignorés [Buolamwini et al., 2018]. Le traitement automatique des langues peut permettre d'identifier ces problèmes grâce au développement de l'analyse automatique de textes permettant d'identifier les affirmations scientifiques et de les confronter aux résultats de la recherche [Koroleva et al., 2020 ; Bleuze, 2024]. S'appuyant sur ces travaux récents, il est nécessaire de perfectionner la caractérisation automatique des affirmations et des résultats en exploitant le contenu des résumés et des textes intégraux des publications scientifiques, ainsi que d'autres types de sources telles que les figures et les tableaux.
L'objectif de cette thèse est l'analyse des biais dans les publications scientifiques. Les méthodes d'identification automatique des liens de causalité entre les énoncés dans les articles peuvent être utilisées à cette fin. L'un des résultats attendus est la constitution d'un corpus de liens de causalité entre les énoncés présents dans les résumés et les textes intégraux de publications scientifiques en anglais. Par exemple, dans (Lu et al. 2022), nous pouvons considérer des énoncés du résumé et des résultats décrivant le même aspect du travail: Résumé: «Les expériences menées sur l'ensemble de données DAIC-WOZ montrent que les performances de l'algorithme se sont considérablement améliorées, avec une erreur absolue moyenne (MAE) de 4,48 et une erreur quadratique moyenne (RMSE) de 5,37.» Résultats: «Le résultat expérimental de la MAE s'est rapidement amélioré, passant de 4,96 à 4,48 après l'ajout du module Transformer Encoder.» On constate que l'amélioration «considérable» correspond à 0,48 point pour la MAE, tandis que la RMSE, mentionnée dans le résumé, n'est pas décrite dans les résultats. Nous nous concentrerons sur deux sous-domaines scientifiques différents, pour lesquels nous avons déjà de l'expérience et des corpus disponibles: le domaine biomédical et le traitement automatique des langues.
Dans ce contexte, il faudra constituer un corpus de publications scientifiques. extraire des énoncés des résumés d'articles – en particulier les affirmations –, les aligner avec des énoncés décrivant le même contenu dans le texte intégral et analyser en détail les liens entre eux. L'extraction et l'alignement s'appuieront sur des travaux antérieurs: Bleuze et al. (2024) permettent l'identification automatique des affirmations et peuvent être utilisés pour extraire des énoncés pertinents des résumés et des textes intégraux afin de les apparier. Des mesures de similarité de phrases peuvent également être utilisées pour faciliter l'appariement des phrases des résumés et des textes intégraux. Le doctorant analysera ensuite automatiquement les relations sémantiques entre les phrases des résumés et leurs équivalents les plus «similaires» dans les textes intégraux, et évaluera si les affirmations présentes dans les textes intégraux figurent également dans les résumés. L'étude explorera la cohérence du contenu entre les résumés et les textes intégraux, ainsi que la sélection du contenu opérée par les résumés à partir du contenu intégral d'un article.
Keywords
natural language processing, bias, LLM, scientific publications, ethics, responsible science
Subject details
Inadequate reporting is an understudied cause of bias in research [Boutron et al. 2010, Macleod et Al. 2014]. Problems include, but are not limited to, non-reporting or delayed reporting of studies, omissions from or misinterpretation of results in abstracts, distorted reporting and interpretation of study results to convince the reader of benefits not supported by the main findings. These issues have been studied in biomedical research with publication guidelines being proposed to improve the quality of reporting [Ghimire et al. 2014]. There is much at stake here, as inadequate reporting can negatively impact the trust of the research community and society in scientific research. Risks also include poor decision making due to distorted results, such as deployment of systems that are not accurate enough for their intended usage because benefits have been over-estimated and drawbacks minimized or even not considered at all [Buolamwini et al. 2018]. Natural Language processing can contribute further interventions through the development of automatic text analysis to identify scientific claims and contrast them with research results [Koroleva et al. 2020, Bleuze, 2024]. Building on this recent work, there is a need to advance the automatic characterization of claims and results by leveraging content from both the abstracts and full text scientific publications as well as other types of sources such as figures, and tables. The objective of this thesis is the analysis of bias in scientific publications. Methods for automatically identifying entailment between statements in articles can be leveraged for that purpose. One of the expected results is a corpus of entailments between statements in the abstract and full text of scientific publications in English. For example, in (Lu et al. 2022), we can consider statements from the abstract and results describing the same aspect of the work: Abstract: 'Experiments on the DAIC-WOZ dataset show that the performance of the algorithm has improved considerably, with a mean absolute error (MAE) of 4.48 and a root mean square error (RMSE) of 5.37.' Results: 'the experimental result of MAE improved rapidly from 4.96 to 4.48 after adding Transformer Encoder module' We can see that 'considerable' improvement corresponds to .48 points of one metric (MAE) while the other metric mentioned in the abstract (RMSE) is not described in results. We will focus on two different scientific sub fields, on which we already have experience and available corpora: the biomedical domain and natural language processing. In this context, the PhD student will build a corpus of scientific publications. They will extract statements from article abstracts - in particular, claims - align them with statements describing the same content in the article full text and further analyse the entailment between them. The extraction and alignment will build on previous work: Bleuze et al. (2024) supports the automatic identification of claims and can be used to extract statements of interest from abstract and full text to pair them. Sentence similarity measures can also be used to support the pairing of sentences from abstract and full text. The PhD student will then automatically analyse the semantic relationships between abstract sentences and their most 'similar' counterpart in full text, and assess whether claims made in the full text are present in abstracts. The study will explore the consistency of content in abstract vs full text as well as the content selection operationalized by abstracts from the full content of an article.
Profil du candidat
- anglais courant
- Master en TAL
- intérêt démontré pour la création de corpsu et les questions éthiques
- Maîtrise de Python
- Utilisation de LLM
Candidate profile
- Fluent English
- specialization in NLP (NLP Master)
- demonstrated interest in dataset building and ethical issues
- Proficiency in Python
- LLM usage
Référence biblio
Bleuze C. , 2024. Analysing claims in NLP research. MSc Master Thesis. Institut des sciences du Digital, Management et Cognition, Nancy, France.
Boutron I., Dutton S., Ravaud P., Altman D.G., 2010. Reporting and interpretation of randomized controlled trials with statistically nonsignificant results for primary outcomes. JAMA. May 26;303(20):2058-64.
Buolamwini, J. & Gebru, T., 2018. “Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification”. In: Proceedings of the 1st Conference on Fairness, Accountability and Transparency. PMLR, 77–91
Ghimire S., Kyung E., Lee H., Kim E., 2014. Oncology trial abstracts showed suboptimal improvement in reporting: a comparative before-and-after evaluation using CONSORT for Abstract guidelines. J Clin Epidemiol. 67(6):658-66.
Koroleva, A., Kamath, S., Bossuyt, P. & Paroubek, P., 2020. DeSpin: a prototype system for detecting spin in biomedical publications. In Proceedings of the 19th SIGBioMed Workshop on Biomedical Language Processing, pages 49–59, Online. ACL.
Macleod M.R., Michie S., Roberts I., Dirnagl U., Chalmers I., Ioannidis J.P., Al-Shahi Salman R., Chan
A.W., Glasziou P., 2014. Biomedical research: increasing value, reducing waste. Lancet. 383(9912):101-4.

