Offre de thèse
L'Intelligence Artificielle pour l'identification d'interactions entre biomarqueurs en santé
Date limite de candidature
17-04-2025
Date de début de contrat
01-10-2025
Directeur de thèse
GEGOUT-PETIT Anne
Encadrement
Le doctorants aura un bureau à l'IECL et rencontrera ses encadrants de thèses toutes les semaines. Il participera aux séminaires de l'équipe probabilités et statistique de l'IECL, au groupe de travail 'biostat' de l'équipe Inria SIMBA
Type de contrat
école doctorale
équipe
PROBAS STATScontexte
L'équipe Probabilités et Statistiques de l'IECL a des collaborations établies avec les CHRU de Nancy et de Strasbourg sur la recherche de biomarqueurs pour la récidive des accidents cardiaques, ainsi qu'en oncologie sur les questions de modélisation de l'hétérogénéité des tumeurs et des réseaux de gènes. Le CIC-P de Nancy, qui fait partie du CHRU, est une équipe de recherche très impliquée dans la recherche translationnelle. Il a intégré l'IA après le programme RHU FIGHT-HF, en embauchant deux data scientists en plus des statisticiens existants. Le professeur Girerd, cardiologue titulaire d'un doctorat en biomathématiques et coordinateur du CIC-P, participe activement aux essais cliniques et à la recherche physiopathologique, ainsi qu'à l'analyse avancée des données. Ses contributions à l'apprentissage automatique en médecine sont reflétées dans plusieurs publications (Kobayashi, ...Girerd JACC CVI 2022 ; Monzo, ... Girerd EJHF 2024). Il est également co-auteur d'une étude méthodologique sur les approches de clustering, combinant des simulations et des données réelles pour comparer les performances (Preud'homme,... Girerd, Sci Rep 2021).spécialité
Mathématiqueslaboratoire
IECL - Institut Elie Cartan de Lorraine
Mots clés
apprentissage statistique, arbre CART, forêt aléatoire, biomarqueurs, Interactions, médecune personnalisée
Détail de l'offre
L'identification des interactions entre biomarqueurs est très importante en santé pour (i) comprendre les mécanismes déclencheurs d'une maladie, (ii) pour avoir des modèles de diagnostique les plus fins possible avec des objectifs explicatifs et/ou prédictifs, (iii) pour l'administration de médicaments les plus à même d'être efficace pour un profil donné (santé personnalisée)
Les modèles statistiques standard comme les modèles linéaires généralisés (régression linéaire, logistique, analyse de variance, …) ou encore des modèles à effets mixtes, permettent de modéliser des interactions entre covariables ou des phénomènes latents par l'introduction de termes spécifiques et le test de leur significativité statistique. Cependant, le nombre d'interactions à tester devient vite énorme avec le nombre de covariables en jeu ; aussi elle ne peut être guidée que par des hypothèses à priori. Dans ce projet, nous proposons d'utiliser les modèles d'apprentissage statistique pour la découverte a posteriori d'interactions entre covariables (ou biomarqueurs). Le cadre des forêts aléatoires est tout à fait adapté à ce genre de questions. En effet, une première étape consistera à l'étude des arbres CART. En effet, la hiérarchie des nœuds peut permettre de définir des effets différenciés de variables suivant différentes populations correspondant aux premières branches de l'arbre. Les arbres d'une forêt aléatoire étant des réplicas bootstrappés d'arbre CART, des motifs de hiérarchie de coupure qualifiées de similaires les plus fréquentes, pourront être recherchés et leur fréquence permettra de quantifier l'importance de l'interaction. L'objet de la thèse est de clarifier ces notions, de développer des algorithmes qui détectent les interactions et les quantifie. La recherche sera guidée par des questions de diagnostic et de médecine personnalisée en cardiologie, dans le cadre de grandes bases de données dans le champ cardiovasculaire, observationelles (p.e. la base PARADISE comportant plus de 19 000 observations) ou randomisées (p.e. l'essai HOMAGE, testant l'effet de la spironolactone chez les patients à risque d'insuffisance cardiaque).
Keywords
statistical learning, CART Tree, random forest, biomarkers, interaction, personnalised medicine
Subject details
The identification of interactions between biomarkers is very important in healthcare to (i) understand the mechanisms that trigger a disease, (ii) to have the finest possible diagnostic models with explanatory and/or predictive objectives, (iii) to administer drugs that are most likely to be effective for a given profile (personalized medicine). Standard statistical models such as generalized linear models (linear regression, logistic regression, analysis of variance, etc.) or mixed-effects models can be used to model interactions between covariates or latent phenomena, by introducing specific terms and testing their statistical significance. However, the number of interactions to be tested quickly becomes enormous with the number of covariates involved, so it can only be guided by a priori assumptions. In this project, we propose to use statistical learning models for a posteriori discovery of interactions between covariates (or biomarkers). The random forest framework is ideally suited to this type of question. Indeed, a first step will be to study CART trees. Indeed, the hierarchy of nodes can be used to define differentiated effects of variables according to different populations corresponding to the first branches of the tree. As the trees in a random forest are bootstrapped replicas of CART trees, it will be possible to search for patterns in the hierarchy of the most frequent similar cuts, and to quantify the importance of the interaction by their frequency. The aim of the thesis is to clarify these notions, and to develop algorithms that detect interactions and quantify them. Research will be guided by questions of diagnosis and personalized medicine in cardiology, within the framework of large databases in the cardiovascular field, either observational (e.g. the PARADISE database containing over 19,000 observations) or randomized (e.g. the HOMAGE trial, testing the effect of spironolactone in patients at risk of heart failure).
Profil du candidat
L'étudiant doit être titulaire d'un master en mathématiques appliquées ou en science des données et être motivé par les applications dans le domaine de la santé.
Candidate profile
The student must hold a master's degree in applied mathematics or data science and be motivated by applications in the healthcare field.
Référence biblio
Lalloué, B., Monnez, J. M., Lucci, D., & Albuisson, E. (2021). Construction of parsimonious event risk scores by an ensemble method. An illustration for short-term predictions in chronic heart failure patients from the GISSI-HF trial. Applied Mathematics, 12(7), 627-653.
Kobayashi, M., et al. 'Machine learning-derived echocardiographic phenotypes predict heart failure incidence in asymptomatic individuals.' Cardiovascular Imaging 15.2 (2022): 193-208.
Monzo, L., Bresso, E., Dickstein, K., Pitt, B., Cleland, J. G., Anker, S. D., ... & Girerd, N. (2024). Machine learning approach to identify phenotypes in patients with ischaemic heart failure with reduced ejection fraction. European Journal of Heart Failure.
Sauve, Marie, and Christine Tuleau-Malot. 'Variable selection through CART∗.' ESAIM: Probability and Statistics 18 (2014): 770-798.
Genuer, R., Poggi, J. M., & Tuleau-Malot, C. (2010). Variable selection using random forests. Pattern recognition letters, 31(14), 2225-2236.