*

ENACT Désinformation au sein des grands modèles de langage : négationnisme et intelligence artificielle

Offre de thèse

ENACT Désinformation au sein des grands modèles de langage : négationnisme et intelligence artificielle

Date limite de candidature

28-04-2025

Date de début de contrat

01-09-2025

Directeur de thèse

ARANA Andrew

Encadrement

Rien à dire

Type de contrat

ANR Financement d'Agences de financement de la recherche

école doctorale

SLTC - SOCIETES, LANGAGES, TEMPS, CONNAISSANCES

équipe

contexte

Large language models (LLMs) have rapidly become a tool used by many around the world. This widespread adoption has prompted the European Union to create a legal framework to regulate these technologies. The first comprehensive regulation on AI, the AI Act, came into force in 2024. It is complemented by the Digital Services Act, which aims to prevent illegal and harmful online activities and the spread of disinformation. This project will involve studying these laws from the perspective of disinformation. These European laws aim to make AI systems understandable, but this task is complex for LLMs. Their algorithmic opacity renders their workings difficult to understand. Moreover, the disinformation automatically generated by LLMs is often anonymous. Toward better legislation of disinformation by LLMs, three challenges will be studied.

spécialité

Philosophie

laboratoire

AHP-PReST - Archives Henri Poincaré - Philosophie et Recherches sur les Sciences et les Technologies

Mots clés

désinformation, LLM

Détail de l'offre

Les grands modèles de langage (LLMs) sont rapidement adoptés et l'UE a crée un cadre juridique pour réguler ces technologies. La première réglementation complète sur l'IA, l'AI Act, est entrée en vigueur en 2024. Elle est complétée par le Digital Services Act, qui vise à prévenir les activités en ligne illégales et nuisibles ainsi que la propagation de la désinformation.
Ce projet impliquera l'étude de ces lois sous l'angle de la désinformation. Ces lois européennes visent à rendre les systèmes d'IA compréhensibles, mais cette tâche est complexe pour les LLMs. Leur opacité algorithmique rend leur fonctionnement difficile à comprendre. De plus, la désinfo générée automatiquement par les LLMs est souvent anonyme. Pour une meilleure législation de la désinfo par les LLMs, trois défis seront étudiés.
Premièrement, qu'est-ce que la désinformation ? À titre de première tentative, il s'agit de l'utilisation de techniques de masse d'information pour tromper ou déformer les faits. Cependant, cette définition soulève des questions sur la nature de l'information, en particulier sa création, sa transmission et son interprétation. La théorie de l'information de Claude Shannon aide à comprendre ces aspects, mais ne couvre pas tout, comme le sens ou l'impact cognitif. Une première partie de ce projet est l'analyse philosophique de l'information dans le contexte de la désinfo, afin de comprendre plus précisément comment encadrer les régulations légales qui ciblent la désinfo. Ces questions sont encore plus complexes dans le contexte des LLMs. Traditionnellement, les lois ciblent des agents responsables, mais les LLMs, étant algorithmiques, ne présentent aucun agent spécifique à cibler. Comment la responsabilité légale peut être attribuée pour la désinfo générée par les LLMs est le point central de cette première partie.
Un 2e défi est de comprendre les aspects syntaxiques de la désinfo. Pour réguler légalement les LLMs, il serait utile d'identifier des marqueurs syntaxiques possibles de la désinfo. Par exemple, dans le discours négationniste, le nombre 88 (représentant « Heil Hitler ») est utilisé pour transmettre des messages spécifiques. Ces mêmes subtilités syntaxiques se retrouvent-elles dans les codes des LLMs ? Actuellement, les concepteurs de LLMs interdisent manuellement certains mots ou sujets, mais peuvent-ils être détectés syntaxiquement, par leur forme ? Une étude syntaxique du traitement du langage naturel dans le cas de la désinfo avec les LLMs promet de nouvelles mesures de la désinfo dans un contexte algorithmique, offrant ainsi de nouveaux outils à la législation.
3e, un autre défi majeur est la gouvernance démocratique des LLMs. Bien que la transparence des algorithmes soit essentielle pour prendre des décisions à leur sujet, l'ouverture des codes sources n'est pas suffisante, car les modèles eux-mêmes sont incompréhensibles pour l'homme. Cette opacité algorithmique est un obstacle à la régulation démocratique de la désinfo. Par nos analyses de la désinfo dans les LLMs, nous visons à donner aux LLMs suffisamment de transparence pour une régulation efficace et démocratique.
Enfin, une étude de cas sera menée sur la négation du génocide, une forme paradigmatique de désinfo au sein des LLMs. Le négationnisme falsifie les faits historiques, en particulier en exploitant la notion binaire de génocide. La disparition des témoins directs des génocides du 20e siècle favorise le négationnisme en affaiblissant la mémoire collective. Le négationnisme est l'une des nombreuses théories du complot amplifiées par les LLMs. Les mécanismes sous-jacents d'influence sont peu étudiés, bien qu'ils soient souvent utilisés à des fins politiques. Étant donné que la négation du génocide inclut souvent des éléments non textuels, tels que des enregistrements vidéo et audio, cette étude de cas examinera comment les analyses décrites ci-dessus s'appliquent aux LLMs multimodaux.

Keywords

Disinformation, LLM

Subject details

Large language models (LLMs) have rapidly become a tool used by many around the world. This widespread adoption has prompted the European Union to create a legal framework to regulate these technologies. The first comprehensive regulation on AI, the AI Act, came into force in 2024. It is complemented by the Digital Services Act, which aims to prevent illegal and harmful online activities and the spread of disinformation. This project will involve studying these laws from the perspective of disinformation. These European laws aim to make AI systems understandable, but this task is complex for LLMs. Their algorithmic opacity renders their workings difficult to understand. Moreover, the disinformation automatically generated by LLMs is often anonymous. Toward better legislation of disinformation by LLMs, three challenges will be studied. Firstly, what is disinformation? As a first try, it is the use of mass information techniques to deceive or to distort facts. However, this definition raises questions about the nature of information, particularly its creation, transmission, and interpretation. Claude Shannon's information theory helps in understanding these aspects but does not cover everything, such as meaning or cognitive impact. A first part of this project is the philosophical analysis of information in the context of disinformation, with an eye toward understanding more precisely how to frame legal regulations that target disinformation. These questions are yet more complex in the context of LLMs. Traditionally, laws target responsible agents, but LLMs, being algorithmic, present no specific agent to target. How legal responsibility can be assigned for LLM-generated disinformation is the focus of this first part. A second challenge is understanding the syntactic aspects of disinformation. To legally regulate LLMs, it would be useful to identify possible syntactic markers of disinformation. For example, in negationist discourse, the number 88 (representing ‘‘Heil Hitler'') is used to convey specific messages. Are these same syntactic subtleties found in the codes of LLMs? Currently, LLM designers manually prohibit certain words or topics, but can these be detected syntactically, by their form? A syntactic study of natural language processing in the case of disinformation with LLMs, promises new measures of disinformation in an algorithmic context, thereby giving new tools to legislation. Thirdly, another major challenge is the democratic governance of LLMs. While transparency of algorithms is essential for making decisions about them, opening up source codes is not enough, as the models themselves are humanly incomprehensible. This algorithmic opacity is an obstacle to the democratic regulation of disinformation. By our analyses of disinformation in LLMs, we aim to give LLMs enough transparency for effective and democratic regulation. Finally, a case study will be conducted on genocide denial, a paradigmatic form of disinformation within LLMs. Negationism falsifies historical facts, particularly by exploiting the binary notion of ‘‘genocide''. The disappearance of direct witnesses to 20th century genocides fosters negationism by weakening collective memory. Negationism is one among other conspiracy theories amplified by LLMs. The underlying mechanisms of influence are little studied, although often used for political purposes. Since genocide denial often includes non-textual elements, including video and audio recordings, this case study will investigate how the analyses described above apply to multimodal LLMs. The expected results include the creation of analytical models to understand disinformation strategies in LLMs, particularly concerning genocide. These models will guide legal and institutional strategies to combat disinformation, and will advance research in the humanities and social sciences on memory policies and AI.

Profil du candidat

L'étudiant devra être titulaire d'un diplôme équivalent à un M2 en philosophie. Il devra posséder des compétences en algèbre linéaire et en arithmétique matricielle afin d'analyser le fonctionnement de grands modèles de langage. Il devra également s'intéresser aux études sur les génocides.

Candidate profile

The student should have the equivalent of an M2 in philosophy. They should have some competence with linear algebra and matrix arithmetic in order to analyse the functioning of large language models. They should also have an interest in genocide studies.

Référence biblio

Legal documents
« Regulation (EU) 2022/2065 of the European Parliament and of the Council of 19 October 2022 on a Single Market For Digital Services and amending Directive 2000/31/EC (Digital Services Act) », 2022. Legislative Body: EP, CONSIL.
« Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence and amending Regulations (EC) No 300/2008, (EU) No 167/2013, (EU) No 168/2013, (EU) 2018/858, (EU) 2018/1139 and (EU) 2019/2144 and Directives 2014/90/EU, (EU) 2016/797 and (EU) 2020/1828 (Artificial Intelligence Act) », 2024. Legislative Body: EP, CONSIL.

Algorithmic transparency
BURRELL Jenna, « How the machine ‘‘thinks'': Understanding opacity in machine learning algorithms », Big Data & Society, vol. 3, n° 1, 2016. DOI : https://doi.org/10.1177/2053951715622512
LOI Michele, Andrea FERRARIO and Eleonora VIGANO, « Transparency as design publicity: explaining and justifying inscrutable algorithms », Ethics and Information Technology, vol. 23, no 3, septembre 2021, p. 253-263. DOI : https://doi.org/10.1007/s10676-020-09564-w
PEGNY Maël and Issam IBNOUHSEIN, « Quelle transparence pour les algorithmes d'apprentissage machine ? », 2018. ⟨hal-01877760⟩

Information, disinformation and AI
ALAMMAR Jay and Maarten GROOTENDORST, Hands-On Large Language Models: Language Understanding and Generation, 1st ed., Beijing Boston Farnham, O'Reilly Media, 2024.
BAR-HILLEL Yehoshua and Rudolf CARNAP, « Semantic Information », The British Journal for the Philosophy of Science, vol. 4, n° 14, 1953, p. 147-157. URL : https://www.jstor.org/stable/685989
BARRAUD Boris, L'intelligence artificielle : Dans toutes ses dimensions, Paris, L'Harmattan, 2020.
DUNN Jon Michael, « Information in Computer Science », dans Adriaans Pieter and Johan van Benthem (ed.), Philosophy of Information (Handbook of the Philosophy of Science, vol. 8) , Amsterdam, Elsevier, 2008, p. 581-608.
FLORIDI Luciano, The Philosophy of Information, Oxford, Oxford University Press, 2011.
FALLIS Don, « What is disinformation ? », Library trends, vol. 63, n° 3, 2015, p. 401–426.
HARRIS Keith Raymond, « Beyond Belief: On Disinformation and Manipulation », Erkenntnis, vol. 90, n° 2, février 2025, p. 483-503. DOI : https://doi.org/10.1007/s10670-023-00710-6
SAUVE Mathieu-Robert and Alexandre COUTANT, « Loi française contre la manipulation de l'information en période électorale et pratiques professionnelles des journalistes face au phénomène des fake news », Les Enjeux de l'information et de la communication, vol. 231, n° S1, GRESEC, 2023, p. 103-122.
SIMION Mona, « Knowledge and disinformation », Episteme, 2023, p. 1-12.

Key texts
BLOXHAM Donald et A. Dirk MOSES, The Oxford Handbook of Genocide Studies, New York, Oxford University Press, 2010.
BULLOCK Justin B., Yu-Che CHEN, Johannes HIMMELREICH, Valerie M. HUDSON, Anton KORINEK, Matthew M. YOUNG and Baobao ZHANG (ed.), The Oxford Handbook of AI Governance, 1st ed., New York, Oxford University Press, 2024.
COLEMAN Jules L., Kenneth Einar HIMMA and Scott J. SHAPIRO (ed.), The Oxford Handbook of Jurisprudence and Philosophy of Law [2002], New York, Oxford University Press, 2004.
DUBBER Markus Dirk, Frank PASQUALE and Sunit DAS (ed.), The Oxford Handbook of Ethics of AI, New York, Oxford University Press, 2020.
FERY Caroline and Shinichiro ISHIHARA (ed.), The Oxford Handbook of Information Structure, 1st ed., Naew York, Oxford University Press, 2016.
MITKOV Ruslan (ed.), The Oxford Handbook of Computational Linguistics [2003], 2nd ed., New York, Oxford University Press, 2022.

Genocide
FEIN Helen, Genocide: a Sociological Perspective, London, SAGE Publications, 1993.
IRVIN-ERICKSON Douglas, Raphaël Lemkin and the Concept of Genocide, 1st ed., Philadelphia, University of Pennsylvania Press, coll. « Pennsylvania studies in human rights », 2017.
KUPER Leo, Genocide: Its Political Use in the Twentieth Century, New Haven, Yale University Press, 1982.
LEMKIN Raphaël, Axis Rule in Occupied Europe – Law of Occupation, Analysis of Government, Proposals for Redress, Washington, Carnegie Endowment for International Peace, Division of International Law, 1944.
SCHABAS William, Genocide in International Law: the Crime of Crimes, 2nd ed., Cambridge, Cambridge University Press, 2009.
SHAW Martin, What Is Genocide? [2007], 2nd ed., Cambridge (UK) ; Malden (MA), Polity Press, 2015.
Negationnism
BENSOUSSAN-BURSZTEIN Daniel, « Négationnisme : état des lieux et perspectives critiques », Revue d'Histoire de la Shoah, N° 207, n° 2, 1er octobre 2017, p. 417-442.
GARIBIAN Sévane, « Droit, histoire, mémoire. Le négationnisme : exercice d'une liberté ou violation d'un droit ? », Revue arménienne des questions contemporaines, n°15, Bibliothèque Nubar de l'UGAB, 1er janvier 2012, p. 53-65.
HENNEBEL Ludovic and Thomas HOCHMANN (éd.), Genocide Denials and the Law, New York, Oxford University Press, 2011.
ROUSSO Henry, Le syndrome de Vichy : de 1944 à nos jours [1987], 2th ed., Paris, Editions du Seuil, coll. « Points Série histoire », no 135, 2001.
SHERMER Michael and Alex GROBMAN, Denying history: who says the Holocaust never happened and why do they say it?, Berkeley, University of California Press, coll. « The S. Mark Taper Foundation imprint in Jewish studies », 2009.

Genocide and AI
MYKOLA MAKHORTYKH, « No AI After Auschwitz? Bridging AI and Memory Ethics in the Context of Information Retrieval of Genocide-Related Information », dans Animesh Mukherjee, Juhi Kulshrestha, Abhijnan Chakraborty et Srijan Kumar (éd.), Ethics in Artificial Intelligence: Bias, Fairness and Beyond, Singapore, Springer Nature Singapore, coll. « Studies in Computational Intelligence », 2023, p. 71-83.