*

IA pour l'identification d'interactions entre variables, application à l'effet individuel d'un traitement

Offre de thèse

IA pour l'identification d'interactions entre variables, application à l'effet individuel d'un traitement

Date limite de candidature

19-04-2026

Date de début de contrat

01-10-2026

Directeur de thèse

GEGOUT-PETIT Anne

Encadrement

Thèse en mathématiques appliquée en forte collaboration avec le CHRU de Nancy (CIC-P, Pr Nicolas Girerd)

Type de contrat

Plan Investissement d'Avenir (Idex, Labex)

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

PROBAS STATS

contexte

L'équipe probabilités et statistique collabore de longue date avec le CHRU de Nancy sur des questions de modélisation pour la santé en cancérologie notamment. Le CIC-P du CHRU de Nancy a une grande expertise sur les questions d'identification d'effet individuel d'un traitement (médecine de précision). Les deux structures souhaitent collaborer sur ces questions.

spécialité

Mathématiques

laboratoire

IECL - Institut Elie Cartan de Lorraine

Mots clés

apprentissage statistique, interactions, Arbre Cart, Random Forest, médecine de précision, effet individuel de traitement

Détail de l'offre

La sélection de variables est un domaine de recherche très actif en statistique et en apprentissage automatique depuis les années 2000, avec le développement de nombreuses méthodes. Elle revêt une importance capitale pour l'interprétation des modèles et des algorithmes décisionnels. Cependant, la sélection de variables seule ne suffit pas pour l'interprétation ; il est également essentiel d'identifier et de comprendre les interactions entre les variables.
Dans ce projet, nous proposons un nouveau cadre basé sur des modèles d'apprentissage automatique pour découvrir et quantifier les interactions entre les covariables. Les forêts aléatoires (RF) sont particulièrement bien adaptées à cet effet. Une partie de la littérature se concentre sur des interactions plus ciblées, en particulier lorsqu'une des variables est binaire (par exemple, traitement vs placebo en médecine personnalisée, pour identifier les effets différentiels du traitement (ITE)). Dans cette thèse, nous aborderons les deux scénarios.
Cette thèse est méthodologique et vise à développer des méthodes générales applicables à divers domaines (d'où sa soumission sous le thème « IA pour la découverte scientifique »), bien que notre approche s'appuie sur des exemples biologiques et cliniques, tels que des questions de diagnostic et de médecine personnalisée en cardiologie. Nous travaillerons avec de grandes bases de données cardiovasculaires, tant observationnelles que randomisées.
Les résultats de cette thèse seront largement applicables à l'ensemble de la communauté analytique, au-delà de la recherche en santé et biomédicale.
Outre des publications dans des revues spécialisées en apprentissage statistique ou d'études cliniques, nous développerons des paquets pour les logiciel R ou Python.

Keywords

statistical learning, interactions, Cart Tree, Random Forest, personalised medicine, Individual treatment effect

Subject details

Variable selection is a highly active research field in statistics and machine learning since the 2000s, with the development of numerous methods. It is of paramount importance for the interpretation of models and decision-making algorithms. However, variable selection alone is not sufficient for interpretation; it is also essential to identify and understand interactions between variables. In this project, we propose a new framework based on machine learning models to discover and quantify interactions between covariates. Random forests (RF) are particularly well suited for this purpose. A body of literature focuses on more targeted interactions, particularly when one of the variables is binary (e.g., treatment vs. placebo in personalized medicine, to identify differential treatment effects (ITE)). In this thesis, we will address both scenarios. This thesis is methodological, aiming to develop general methods applicable to various fields (hence the submission under the theme 'AI for Scientific Discovery'), although our approach is guided by biological and clinical examples, such as diagnostic and personalized medicine questions in cardiology. We will work with large cardiovascular databases, both observational or and randomized. The outputs of this PhD will be broadly applicable across the analytic community, beyond health and biomedical research. In addition to publications in statistical learning journals and applications in clinical studies, we will develop software packages for R or Python.

Profil du candidat

L'étudiant doit être titulaire d'un master ou avoir un titre d'ingénieur en mathématiques appliquées ou en science des données et être motivé par les applications dans le domaine de la santé.

Candidate profile

Students must hold a master's degree or an engineering degree in applied mathematics or data science and be motivated by applications in the field of health.

Référence biblio

Bastien, B., Gégout-Petit et al (2022). A statistical methodology to select covariates in high-dimensional data under dependence. Application to the classification of genetic profiles in oncology. Journal of Applied Statistics, 49(3), 764-781.

Chen, C. C. M., et al. (2011). Methods for identifying SNP interactions: A review on variations of Logic Regression, Random Forest and Bayesian logistic regression. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 8(6), 1580–1591.

Foster, J. C., Taylor, J. M. G., & Ruberg, S. J. (2011). Subgroup identification from randomized clinical trial data. Statistics in Medicine, 30(24), 2867–2880.

Gégout-Petit, A., Gueudin-Muller, A., & Karmann, C. (2022). The revisited knockoffs method for variable selection in L₁-penalized regressions. Communications in Statistics—Simulation and Computation, 51(10), 5582–5595.

Jiang, R., et al. (2009). A random forest approach to the detection of epistatic interactions in case-control studies. BMC Bioinformatics, 10(Suppl 1), S65.

Kobayashi, M., Girerd et al. (2025). An individual treatment effect approach to predict response to mineralocorticoid receptor antagonists in patients with heart failure and reduced ejection fraction. European Journal of Heart Failure. 2025 Dec;27(12):2800-2809. doi: 10.1002/ejhf.70047

Li, J., et al. (2016). Detecting gene-gene interactions using a permutation-based random forest method. BioData Mining, 9(1), 14. https://doi.org/10.1186/s13040-016-0097-9

Lu, M., et al. (2018). Estimating individual treatment effect in observational data using random forest methods. Journal of Computational and Graphical Statistics, 27(1), 209–219.

Monzo, L., et al. (2025). Machine learning approach to identify phenotypes in patients with ischaemic heart failure with reduced ejection fraction. European Journal of Heart Failure. Dec;27(12):3378-3391. doi: 10.1002/ejhf.3547. Epub 2024 Dec 10.PMID: 39654426

Sauve, M., & Tuleau-Malot, C. (2014). Variable selection through CART. ESAIM: Probability and Statistics, 18, 770–798. https://doi.org/10.1051/ps/2014015
Genuer, R., Poggi, J. M., & Tuleau-Malot, C. (2010). Variable selection using random forests. Pattern Recognition Letters, 31(14), 2225–2236.