*

[ENACT] Conception par IA prenant en compte la dynamique des modulateurs allostériques

Offre de thèse

[ENACT] Conception par IA prenant en compte la dynamique des modulateurs allostériques

Date limite de candidature

20-04-2026

Date de début de contrat

01-10-2026

Directeur de thèse

KHAKZAD Hamed

Encadrement

CSI annuel Réunion mensuelle avec l'équipe projet

Type de contrat

Concours pour un contrat doctoral

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

contexte

This PhD project will be carried out at Inria, within the LORIA laboratory (Lorraine Research Laboratory in Computer Science and its Applications), located at the University of Lorraine. LORIA is a leading joint research unit involving Inria, CNRS, and the University of Lorraine, and is internationally recognized for its excellence in computer science, artificial intelligence, and data-driven modeling. The PhD candidate will be supervised by Yasaman Karami (CRCN Inria) and Hamed Khakzad (Inria CPJ), and will be hosted by the DELTA research team (Dynamics-aware data-driven approaches for macromolecular complexes and design) at Inria/LORIA. DELTA brings together expertise in artificial intelligence, graph-based learning, molecular modeling, and structural biology, with the goal of developing AI methods that explicitly integrate conformational dynamics into biomolecular modeling and design. The team currently consists of two permanent researchers, three postdoctoral researchers, and three PhD students, providing a highly interactive and multidisciplinary research environment. It has access to major national HPC facilities (Grid5000, Jean Zay, GENCI allocations), including large-scale GPU resources. The project fits fully within the scientific strategy of Inria and LORIA, at the intersection of AI for science, computational biology, and molecular design, and benefits from existing collaborations in structural biology, molecular dynamics, and data infrastructures for large-scale simulations. The proposed PhD will contribute to the development of novel AI methodologies for drug design while reinforcing the ENACT cluster's objectives in artificial intelligence applied to complex scientific challenges. This PhD project is designed as a standalone, fully funded doctoral position within the ENACT AI Cluster, with ENACT acting as the primary funding and structuring framework. The project directly addresses ENACT's objectives in AI for scientific discovery by developing novel deep learning methods for modeling complex dynamical systems and enabling data-driven molecular design. The scale of the proposed research includes combining large-scale molecular dynamics data, advanced deep learning architectures, and generative models, which requires sustained support over the full duration of the PhD and aligns with ENACT's ambition to foster high-impact, long-term AI research embedded in strong academic environments.

spécialité

Informatique

laboratoire

LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Mots clés

Apprentissage profond, Conception des protéines

Détail de l'offre

L'allostérie est un mécanisme fondamental de régulation dans les systèmes biologiques, par lequel un événement local, tel que la liaison d'un ligand, induit des effets fonctionnels à longue distance au sein d'une macromolécule. Elle sous-tend de nombreux processus biologiques essentiels et, lorsqu'elle est dérégulée, contribue à de nombreuses maladies. Par conséquent, la conception de modulateurs allostériques constitue un défi majeur en découverte de médicaments, offrant de nouvelles stratégies thérapeutiques. Cependant, l'identification et la conception rationnelles de modulateurs allostériques restent limitées par la nature intrinsèquement dynamique et hétérogène des complexes macromoléculaires, qui est mal capturée par les approches structurales statiques.

Le projet de doctorat vise à surmonter ces limitations en développant une architecture d'apprentissage profond pour la conception de modulateurs allostériques, intégrant explicitement la dynamique conformationnelle dans l'apprentissage de représentations moléculaires et la modélisation générative. Le projet combine des représentations topologiques des systèmes moléculaires, des architectures d'apprentissage profond et des simulations de dynamique moléculaire (MD) à grande échelle afin de modéliser la manière dont la variabilité structurale et les communications à longue distance contraignent la liaison et la modulation des ligands.

Le principe central du projet consiste à concevoir des modulateurs allostériques ciblant un site de liaison donné tout en tenant compte de sa variabilité conformationnelle. La première étape du projet porte sur la construction et la curation des données. Le travail s'appuiera sur DynaRepo [1], une base de données à grande échelle des dynamiques conformationnelles macromoléculaires développée au sein de l'équipe d'accueil, qui fournit un accès direct à des trajectoires MD de haute qualité pour divers complexes macromoléculaires.

La deuxième étape se concentrera sur l'apprentissage de représentations pertinentes des sites allostériques. Des représentations invariantes et sensibles à la topologie [2] seront développées afin de capturer à la fois l'organisation structurale et la variabilité conformationnelle au sein d'ensembles de conformations. Des approches récentes d'apprentissage profond sensibles à la dynamique, développées par l'équipe (DynamicGT [3]), serviront de base méthodologique pour modéliser directement à partir des données MD les communications à longue distance et les contraintes dynamiques.

Dans la troisième étape, ces représentations apprises seront intégrées dans un cadre génératif pour la conception de petites molécules. Notre équipe possède une expertise importante pour soutenir cette étape, comme l'illustre notre travail récent SURFACE-bind [4]. De nouveaux modèles d'apprentissage profond, incluant des réseaux de neurones sur graphes ainsi que des mécanismes de convolution et d'attention informés par la topologie [5], seront développés afin de générer des modulateurs allostériques candidats compatibles à la fois avec les contraintes structurales et dynamiques du site cible.

Au-delà de son application à la conception de médicaments allostériques, ce projet fournira des méthodologies générales, guidées par les données et sensibles à la dynamique, applicables à d'autres systèmes complexes caractérisés par une hétérogénéité structurale et des interactions à longue distance. Ce projet de doctorat s'inscrit dans un environnement interdisciplinaire et collaboratif solide à Inria/LORIA, à l'interface entre l'intelligence artificielle, la chimie computationnelle et la biologie structurale. Le projet s'appuie sur des collaborations établies avec le LPCT, le CRM2, le consortium européen MDDB, l'EPFL et l'Université de Lund.

Keywords

Deep learning, Protein design

Subject details

Allostery is a fundamental regulatory mechanism in biological systems, whereby a local event such as ligand binding induces functional effects at long distances within a macromolecule. It underlies many essential biological processes and, when dysregulated, contributes to numerous diseases. As a result, the design of allosteric modulators represents a major challenge in drug discovery, offering novel therapeutic strategies. However, the rational identification and design of allosteric modulators remain limited by the intrinsically dynamic, heterogeneous nature of macromolecular complexes, which is poorly captured by static structural approaches. The PhD project aims to address these limitations by developing a Deep learning architecture for the design of allosteric modulators, explicitly integrating conformational dynamics into molecular representation learning and generative modeling. The project combines topological representations of molecular systems, deep learning architectures, and large-scale molecular dynamics (MD) simulations to model how structural variability and long-range communication constrain ligand binding and modulation. The central principle of the project is to design allosteric modulators targeting a given binding site while accounting for its conformational variability. The first stage of the project focuses on data construction and curation. The work will rely on DynaRepo [1] , a large-scale database of macromolecular conformational dynamics developed within the host team, which provides direct access to high-quality MD trajectories of diverse macromolecular complexes. These data will be complemented with existing resources describing experimentally characterized allosteric sites, enabling annotation and supervised learning. The second stage will focus on learning meaningful representations of allosteric sites. Invariant and topology-aware representations [2] will be developed to capture both structural organization and conformational variability across ensembles of conformations. Recent dynamics-aware deep learning approaches developed by the team (DynamicGT [3]) will serve as a methodological foundation to model long-range communication and dynamic constraints directly from MD data. In the third stage, these learned representations will be integrated into a generative framework for small-molecule design. Our team has substantial knowledge to support this stage, highlighted in our recent work SURFACE-bind [4]. Novel deep learning models, including graph neural networks and topology-informed convolutional and attention mechanisms [5], will be developed to generate candidate allosteric modulators compatible with both structural and dynamic constraints of the target site. The models will be designed to be interpretable, robust, and transferable across different biological systems. Beyond its application to allosteric drug design, the project will deliver general-purpose, dynamics-aware data-driven methodologies applicable to other complex systems characterized by structural heterogeneity and long-range interactions. The developed representations and learning architectures are expected to be transferable to a wide range of problems in computational biology, chemistry, and physics, reinforcing ENACT's mission to advance foundational AI methods for scientific discovery. This PhD project is embedded in a strong interdisciplinary and collaborative environment at Inria/LORIA, at the interface of AI, computational chemistry, and structural biology. The project builds on established collaborations with LPCT (computational chemistry and molecular dynamics), CRM2 (structural biology and crystallography, enabling potential experimental validation), the European MDDB consortium (large-scale MD data infrastructures), EPFL (protein design), and Lund University (biological and immunological applications). These collaborations support both the scientific ambition of the project and the training of the PhD candidate.

Profil du candidat

• Master en informatique ou bioinformatique
• Maîtrise de Python et bonnes pratiques de codage obligatoires
• Expérience en apprentissage profond (PyTorch) obligatoire
• Connaissances en biochimie des protéines
• Capacité à travailler de manière autonome et en équipe
• Excellente maîtrise de l'anglais à l'oral et à l'écrit

Candidate profile

• Master's degree in Computer Science or Bioinformatics
• Proficiency in Python and good coding practices is mandatory
• Experience in deep learning (PyTorch) is mandatory
• Knowledge in protein biochemistry
• Ability to work independently and also to work in a team
• Excellent oral and written English skills

Référence biblio

[1] Mokhtari O et al. DynaRepo: the repository of macromolecular conformational dynamics. Nucleic Acid Research. 2026.
[2] Khorana R et al. Polyatomic Complexes: A topologically-informed learning representation for atomistic systems. arXiv. 2024.
Balbi PE et al. Mapping targetable sites on the human surfaceome for the design of novel binders. PNAS. 2026.
[3] Mokhtari O et al. DynamicGT: a dynamic-aware geometric transformer model to predict protein binding interfaces in flexible and disordered regions. Cell Systems. 2026.
[4] Balbi P et al. Mapping targetable sites on the human surfaceome for the design of novel binders. PNAS. 2026.
[5] Khorana R CW-CNN & CW-AN: Convolutional Networks and Attention Networks for CW-Complexes. arXiv. 2024.