*

NLP4NLP pour une éthique déontologique du TAL

Offre de thèse

NLP4NLP pour une éthique déontologique du TAL

Date limite de candidature

15-05-2024

Date de début de contrat

01-10-2024

Directeur de thèse

AMBLARD Maxime

Encadrement

Suivi hebdomadaire du travail par les encadrants Cours de formation complémentaires obligatoire organisés par l'Ecole Doctorale Présentation des travaux en séminaires et conférences

Type de contrat

Concours pour un contrat doctoral

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

SEMMAGRAMME

contexte

L'équipe-projet INRIA Sémagramme fait partie du centre Inria de l'université de Lorraine ainsi que du département Traitement automatique des langues et des connaissances du laboratoire LORIA de l'Université de Lorraine. https://team.inria.fr/semagramme/fr/ Cette thèse porte sur l'utilisation des méthodes de TAL sur des corpus d'articles scientifiques en TAL pour dégager une analyse déontologiques des pratiques et des développements de la communauté scientifiques. Co-direction de thèse/PhD Advisors Karën Fort (Sorbonne Université/LORIA) Maxime Amblard (Université de Lorraine / Loria) Location and Mobility La thèse est située à Nancy, au centre Inria de l'université de Lorraine Le thème de la thèse est à l'articulation de plusieurs projets de l'équipe plusieurs mobilités pour présenter les travaux sont prévues.

spécialité

Informatique

laboratoire

LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Mots clés

TAL, éthique, Modèles de langue

Détail de l'offre

Les technologies capables de garantir la confiance dans les solutions d'IA et du TAL ont pris une place importante dans les développements récents. Cette question est au centre de la rédaction de l'AI Act et est intégrée dans les différents standard de l'IA. Les enjeux sur l'impact écologique ou la sureté des systèmes et la protection des données sont définis par leur objet même, les questions d'équité, d'explicabilité ou d'éthique restent un champ largement ouvert pour la recherche. Dans ce contexte, le sujet proposé s'intéresse particulièrement aux questions d'éthique en TAL.

Si l'éthique est un sujet au centre de nombreuses recherches en philosophie, son transfert aux sujet d'IA et TAL reste une question complexe. Très souvent, l'éthique est vue sous le prisme conséquentialiste qui est une manière naturelle d'envisager la chaîne de faits produit par le développement et qui change le monde. Cependant, cette seule vue met de côté de nombreux autres enjeux. De la même manière qu'il a fallu du temps pour identifier 5 sources de biais dans les systèmes d'apprentissage automatique, notre vision des problématiques IA et TAL a besoin de s'ouvrir à d'autres perspectives. En particulier, une seconde branche de l'éthique considère la manière dont est conduite la recherche. Pour ce qui est de l'IA et du TAL, les règles ne sont pas définitivement établies, ce qui n'exclu pas de pouvoir identifier des comportements plus ou moins acceptables du point de vue de l'éthique déontologique.

Le sujet proposé se focalise sur l'utilisation du TAL pour le TAL (NLP4NLP) dans une perspective déontologique. La communauté du TAL a depuis toujours été portée par les pratiques de la science ouverte. En effet, les principales conférences et revue du domaine sont intégralement accessibles, tant en français qu'en anglais. Par ailleurs, l'ensemble de la production scientifique de la thématique a été rassemblé dans une ressource connue sous le nom d'ACL anthologie (du nom de la principale association en TAL). Cette anthologie est maintenant disponible sous forme d'un corpus, où l'information est exprimée en langue naturelle, le cœur du TAL. Il est donc pertinent d'appliquer les méthodes du TAL à ces données pour analyser les pratiques de production de la recherche elles-mêmes. Par extension, il est possible d'identifier des ressources similaires, qui permettent des études comparatives. Cette analyse est le point de départ du présent sujet de thèse.

Cette thèse propose d'utiliser les méhtodes du TAL pour étudier les développements scientifiques
en TAL de manières diachroniques et synchroniques. L'axe déontologique sera prédominent afin d'identifier les mauvaises pratiques et mettre en avant celles qui produisent une science qui va dans le sens du bien commun.

Pour une meilleure connaissance du sujet de recherche proposé :
Un état de l'art, une bibliographie, des références scientifiques sont disponibles à l'URL suivante, n'hésitez à pas à vous y connecter : https://github.com/acl-org/ethics-reading- list/blob/main/README.md

Keywords

NLP, ethic, Language Models

Subject details

Technologies capable of guaranteeing trust in AI and NLP solutions have taken an important place in recent developments. This issue is central to the drafting of the AI Act and is integrated into the various AI standards. The issues of ecological impact, system security and data protection are defined by their very purpose, while questions of fairness, explicability and ethics remain a wide open field for research. In this context, the proposed topic is particularly interested in ethical issues in NLP. While ethics is a subject at the heart of many research projects in philosophy, its transfer to AI and NLP remains a complex issue. Very often, ethics is seen through the consequentialist prism, which is a natural way of looking at the chain of facts produced by development and which changes the world. However, this view alone ignores many other issues. In the same way that it took time to identify 5 sources of bias in machine learning systems, our vision of AI and NLP issues needs to be opened up to other perspectives. In particular, a second branch of ethics considers the way in which research is conducted. As far as AI and NLP are concerned, the rules have not been definitively established, which does not rule out the possibility of identifying more or less acceptable behaviour from the point of view of deontological ethics. The proposed topic focuses on the use of NLP for NLP (NLP4NLP) from an ethical perspective. The NLP community has always been driven by open science practices. Indeed, the main conferences and journals in the field are fully accessible, in both French and English. In addition, all the scientific production in the field has been brought together in a resource known as the ACL anthology (named after the main association in NLP). This anthology is now available in the form of a corpus, where the information is expressed in natural language, the heart of NLP. It is therefore relevant to apply NLP methods to this data in order to analyse the research production practices themselves. By extension, it is possible to identify similar resources, enabling comparative studies. This analysis is the starting point for this thesis. This thesis proposes to use NLP methods to study scientific developments in NLP in NLP diachronically and synchronically. The deontological axis will be predominant in order to identify bad practices and to highlight those that produce a science that serves the common good. For a better understanding of the proposed research topic: A state of the art, a bibliography and scientific references are available at the following URL, so don't hesitate to have a look: https://github.com/acl-org/ethics-reading- list/blob/main/README.md

Profil du candidat

Master en NLP, en informatique ou dans un domaine connexe.
Maîtrise des langages de programmation (Python) et des bonnes pratiques de codage
Compétences en conception d'algorithmes
Expérience en apprentissage profond
Capacité à travailler de manière autonome et à travailler en équipe
Excellentes compétences en anglais, à l'oral et à l'écrit

Candidate profile

Master's degree in NLP, Computer Science or a related master program
Proficiency in programming languages (Python) and good coding practices
Skills in algorithm design
Experience in deep learning
Ability to work independently and also to work in a team
Excellent oral and written English skills

Référence biblio

I. Augenstein. Determining the credibility of science communication. In I. Belt- agy, A. Cohan, G. Feigenblat, D. Freitag, T. Ghosal, K. Hall, D. Herrmannova, P. Knoth, K. Lo, P. Mayr, R. M. Patton, M. Shmueli-Scheuer, A. de Waard, K. Wang, and L. L. Wang, editors, Proceedings of the Second Workshop on Scholarly Document Processing, page 1–6, Online, June 2021. Associa- tion for Computational Linguistics. doi: 10.18653/v1/2021.sdp-1.1. URL https://aclanthology.org/2021.sdp-1.1.

C. Blake. Beyond genes, proteins, and abstracts: Identifying scientific claims from full-text biomedical articles. Journal of Biomedical Informatics, 43(2): 173–189, Apr. 2010. ISSN 1532-0480. doi: 10.1016/j.jbi.2009.11.001.

R. Haneef, C. Lazarus, P. Ravaud, A. Yavchitz, and I. Boutron. In- terpretation of results of studies evaluating an intervention highlighted in google health news: A cross-sectional study of news. PLOS ONE, 10(10):e0140889, Oct. 2015. ISSN 1932-6203. doi: 10.1371/journal. pone.0140889. URL https://journals.plos.org/plosone/article?id= 10.1371/journal.pone.0140889.

A. Koroleva. Vers la détection automatique des affirmations inappropriées dans les articles scientifiques (towards automatic detection of inadequate claims in scientific articles). In I. Eshkol-Taravella and J.-Y. Antoine, editors, Actes des 24`eme Conférence sur le Traitement Automatique des Langues Naturelles. 19es REncontres jeunes Chercheurs en Informatique pour le TAL (RECITAL 2017), page 135–148, Orléans, France, June 2017. ATALA. URL https: //aclanthology.org/2017.jeptalnrecital-recital.11.

A. Koroleva. Assisted authoring for avoiding inadequate claims in scientific reporting. phdthesis, Université Paris-Saclay; Universiteit van Amsterdam, Jan. 2020. URL https://theses.hal.science/tel-02938856.
L. Luttenberger and K. Vulinovic. Claim strength identification for detecting ex- aggerations in science news. Text Analysis and Retrieval 2018 Course Project Reports, page 75–78, 2018.

J. Mariani, G. Francopoulo, and P. Paroubek. The nlp4nlp corpus (i): 50 years of publication, collaboration and citation in speech and language pro- cessing. Frontiers in Research Metrics and Analytics, 3, Feb. 2019. ISSN 2504-0537. doi: 10.3389/frma.2018.00036. URL https://www.frontiersin. org/articles/10.3389/frma.2018.00036.

P. Martın-Martın. The mitigation of scientific claims in research papers: A comparative study. IJES, International journal of english studies, ISSN 1578- 7044, Vol. 8, No. 2, 2008 (Ejemplar dedicado a: Academic Writing: The Role of Different Rhetorical Conventions), pags. 133-152, 8, Dec. 2008. doi: 10.6018/ijes.8.2.49201.

T. A. McGrath, M. D. F. McInnes, N. Van Es, M. M. G. Leeflang, D. A. Korevaar, and P. M. M. Bossuyt. Overinterpretation of research findings: Evidence of “spin” in systematic reviews of diagnostic accuracy studies. Clinical Chemistry, 63(8):1353–1362, Aug. 2017. ISSN 0009-9147, 1530- 8561. doi: 10.1373/clinchem.2017.271544. URL https://academic.oup. com/clinchem/article/63/8/1353/5612629.

J. Pei and D. Jurgens. Measuring sentence-level and aspect-level (un)certainty in science communications. In M.-F. Moens, X. Huang, L. Specia, and S. W.- t. Yih, editors, Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, page 9959–10011, Online and Punta Cana, Dominican Republic, Nov. 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.emnlp-main.784. URL https://aclanthology.org/ 2021.emnlp-main.784.

P. Sumner, S. Vivian-Griffiths, J. Boivin, A. Williams, C. A. Venetis, A. Davies, J. Ogden, L. Whelan, B. Hughes, B. Dalton, F. Boy, and C. D. Cham- bers. The association between exaggeration in health related science news and academic press releases: retrospective observational study. BMJ, 349: g7015, Dec. 2014. ISSN 1756-1833. doi: 10.1136/bmj.g7015. URL https: //www.bmj.com/content/349/bmj.g7015.