Unicité et décomposition des modèles factoriels à variables mixtes (continues et discrètes)

Offre de thèse

Unicité et décomposition des modèles factoriels à variables mixtes (continues et discrètes)

Date limite de candidature

30-09-2024

Date de début de contrat

01-10-2024

Directeur de thèse

MIRON Sebastian

Encadrement

Réunions de travail hebdomadaires.

Type de contrat

Plan Investissement d'Avenir (Idex, Labex)

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

BioSIS : Biologie, Signaux et Systèmes en Cancérologie et Neurosciences

contexte

En raison de l'explosion récente de la quantité de données issues de diverses modalités de mesure, la fusion de données a gagné en importance dans des nombreuses applications. Un problème fondamental consiste à fusionner des jeux de données hétérogènes contenant des informations spécifiques à l'ensemble de données , comme c'est le cas pour les données d'imagerie par résonance magnétique fonctionnelle (IRMf) ou pour l'imagerie multimodale. En outre, dans de nombreuses applications, les données ont trois dimensions ou plus (e.g., dimensions spatiales et temporelles), ce qui est un défi pour les méthodes classiques de traitement des données.

spécialité

Automatique, Traitement du signal et des images, Génie informatique

laboratoire

CRAN - Centre de Recherche en Automatique de Nancy

Mots clés

Modèles factoriels, variables mixtes, unicité

Détail de l'offre

Les modèles statistiques impliquant des mesures mixtes (c'est-à-dire avec des variables aléatoires continues et discrètes) revêtent une grande importance dans de nombreux problèmes, y compris l'imagerie médicale. De tels modèles peuvent représenter les dépendances entre ces deux classes de variables aléatoires, par exemple l'imagerie cérébrale (i.e., des modalités de neuroimagerie) et des informations catégorielles (état de santé, données socio-économiques, antécédents médicaux) du sujet. Le calcul des mesures de probabilité jointes et conditionnelles sous des modèles mixtes est mathématiquement difficile. Cependant, la nature multivariée de ce problème induit une connexion entre estimation de mesure de probabilité et décompositions tensorielles, qui sont des outils puissants pour représenter des signaux multidimensionnels et fournissent un cadre clair pour étudier les propriétés d'unicité d'un modèle factoriel admettant une représentation de rang faible, par exemple la décomposition canonique polyadique (Canonical Polyadic Decomposition - CPD). Cependant, de tels modèles sont généralement traités dans un cadre déterministe. Les résultats d'identifiabilité pour les modèles factoriels, tels que l'analyse en vecteurs indépendants (Independent Vector Analysis - IVA), sont adaptés aux facteurs à distribution continue. Lorsque ce modèle est appliqué à des données mixtes, les variables catégorielles sont généralement prises en compte sous la forme de contraintes déterministes.
L'objectif de ce projet est de développer un cadre commun pour étudier les modèles factoriels incluant à la fois des variables continues et discrètes. Le/la candidat/candidate étudiera l'unicité de la factorisation ainsi que les approches pour calculer les facteurs de la décomposition à partir de données mixtes. À cette fin, des liens avec les décompositions tensorielles de rang faible telles que les décompositions CPD et PARAFAC2 seront explorés, ainsi que d'autres structures algébriques et graphiques qui peuvent être imposées aux facteurs de la décomposition. Les outils développés seront appliqués à l'étude des données d'imagerie cérébrales (variables continues) couplées aux informations catégorielles (variables discrètes) des sujets.

Keywords

factorized models, mixed variables, uniqueness

Subject details

Statistical models involving mixed (i.e., continuous and discrete) measurements are of great importance in many problems, including medical imaging. Such models can represent the dependencies between these two classes of random variables, which can represent, for example, neuroimaging and other patient information related to its health condition. However, computing the joint and conditional probability measures under mixed models is mathematically challenging for all but the simplest problems. On the other hand, the multivariate nature of this problem induces a connection to tensor decompositions, which are powerful tools for representing multidimensional signals, providing a clear framework to study the recoverability and uniqueness properties of a factorized model by assuming it admits a low-rank representation (such as the canonical polyadic decomposition). However, such models are generally treated in a deterministic setting. The identifiability and recovery results for statistical factorized models, such as independent vector analysis, however, are generally developed when the factors follow a continuous distribution. When this model is applied to neuroimaging data, discretely distributed data such as patient data is generally treated as deterministic variables in the statistical analysis. The aim of this project is to develop a joint framework to study factorized statistical models admitting both continuous and discrete variables. The candidate will study the uniqueness of the factorization as well as approaches to recover the factors of the decomposition from mixed sampled data. To this end, connections to low-rank tensor decomposition such as the canonical polyadic decomposition and PARAFAC2 will be explored, as well as other related algebraic and graph-theoretical structure that can be imposed on the decomposition factors. The application of the developed framework will be illustrated for the study of neuroimaging data jointly with additional (discrete) patient information.

Profil du candidat

Étudiant.e en MASTER (niveau bac + 5), compétences dans le traitement du signal, et/ou mathématiques appliquées. Bonne capacité de communication en anglais.

Candidate profile

Masters degree or equivalent with competence in signal processing and/or applied math. Good communication skills in English.

Référence biblio

Références :
T. Adali et al. “Reproducibility in Matrix and Tensor Decompositions: Focus on model match, interpretability, and uniqueness.” IEEE Signal Processing Magazine, vol. 39, no. 4, pp. 8-24, 2022.

S. Miron et al. “Tensor methods for multisensor signal processing.” IET signal processing, vol. 14, no. 10, pp.693-709, 2020.

T. Adali et al., “Diversity in independent component and vector analyses: Identifiability, algo- rithms, and applications in medical imaging,” IEEE Signal Processing Magazine, vol. 31, no. 3, pp. 18–33, 2014.