*

Méthodes tensorielles pour la fusion de données : Application aux données IRMf multi-sujets

Offre de thèse

Méthodes tensorielles pour la fusion de données : Application aux données IRMf multi-sujets

Date limite de candidature

31-10-2024

Date de début de contrat

01-04-2024

Directeur de thèse

MIRON Sebastian

Encadrement

Réunions de travail hebdomadaires.

Type de contrat

Concours Labex

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

BioSIS : Biologie, Signaux et Systèmes en Cancérologie et Neurosciences

contexte

En raison de l'explosion récente de la quantité de données issues de diverses modalités de mesure, la fusion de données a gagné en importance dans des nombreuses applications [1]. Un problème fondamental consiste à fusionner des jeux de données hétérogènes contenant des informations spécifiques à l'ensemble de données [4], comme c'est le cas pour les données d'imagerie par résonance magnétique fonctionnelle (IRMf) [2] ou pour l'imagerie multimodale [3]. En outre, dans de nombreuses applications, les données ont trois dimensions ou plus (e.g., dimensions spatiales et temporelles), ce qui est un défi pour les méthodes classiques de traitement des données.

spécialité

Automatique, Traitement du signal et des images, Génie informatique

laboratoire

CRAN - Centre de Recherche en Automatique de Nancy

Mots clés

Decompositions tensorielles, IRMf, Rang faible, classification

Détail de l'offre

En raison de l'explosion récente de la quantité de données issues de diverses modalités de mesure, la fusion de données a gagné en importance dans des nombreuses applications [1].
Un problème fondamental consiste à fusionner des jeux de données hétérogènes contenant des informations spécifiques à l'ensemble de données [4], comme c'est le cas pour les données d'imagerie par résonance magnétique fonctionnelle (IRMf) [2] ou pour l'imagerie multimodale [3].
En outre, dans de nombreuses applications, les données ont trois dimensions ou plus (e.g., dimensions spatiales et temporelles), ce qui est un défi pour les méthodes classiques de traitement des données.

Défis : Avec l'essor des méthodes pilotées par les données basées sur les décompositions de matrices et de tenseurs, garantissant une interprétabilité directe des résultats, le domaine de la classification et fusion de données multidimensionnelles est en pleine transformation. Cependant, l'étude des factorisations tensorielles/matricielles flexibles n'en est qu'à ses débuts. L'unicité des décompositions tensorielles couplées a récemment fait l'objet d'un certain nombre d'études [7]. Des décompositions plus flexibles ont été proposées [8], mais les résultats d'unicité actuels pour ce type de décompositions restent limités [3]. Malgré les progrès significatifs en apprentissage automatique pour la fusion et la classification de données, les méthodes actuelles sont limitées par leur capacité à intégrer simultanément les informations communes et spécifiques à différents sous-groupes d'ensembles de données. Surmonter ces défis revêt une importance cruciale pour le développement de méthodes d'analyse des données en neuro-imagerie.

Programme de recherche : Le candidat au doctorat développera des méthodes flexibles de décomposition de matrices/tenseurs pour révéler les informations communes et spécifiques aux différents ensembles de données multidimensionnelles, permettant ainsi la découverte de sous-groupes partageant des caractéristiques communes.
Un aspect essentiel des méthodes développées sera leur interprétabilité et les garanties théoriques, pour lesquelles l'utilisation des décompositions tensorielles fournit un cadre mathématique adéquat [7].
Cela impliquera d'importants défis méthodologiques, tels que le développement de métriques adéquates pour mesurer la similarité entre les ensembles de données tensorielles (les distances sur les variétés riemanniens, par exemples), la résolution de problèmes d'optimisation grande-échelle ainsi que l'élaboration d'un cadre unifié regroupant les méthodes de classification et les décompositions tensorielles.

Les méthodes développées seront appliquées à l'analyse des données IRMf multi-sujets pour la médecine personnalisée, visant à identifier des caractéristiques spécifiques prédictives des troubles mentaux ou à caractériser des sous-types de maladies et des groupes à risque pour les comportements addictifs [2,5]. Un intérêt particulier est porté sur l'analyse de la base de données ABCD [6], collectant des données IRMf et des données auxiliaires (scores cognitifs, consommation de substances) auprès de milliers de sujets au fil du temps.

Le candidat sera supervisé par Sebastian Miron, Ricardo Borsoi et David Brie, membres de l'équipe Signaux Multidimensionnels (SiMul) (https://cran-simul.github.io/) au laboratoire CRAN (Université de Lorraine, France), ainsi que par Tülay Adali, directrice du Laboratoire Machine Learning for Signal Processing (MLSP) à l'Université du Maryland (UMBC), USA.
Le/la candidat.e sera basé.e au Laboratoire CRAN, Université de Lorraine, avec la possibilité de visites de recherche au laboratoire MLSP à Baltimore, USA.

Keywords

tensor decompositions, fMRI, low-rank, clustering

Subject details

Given the recent explosion in the amount of data from multiple modalities, data fusion has been growing in importance for multiple applications [1].A fundamental problem is fusing heterogeneous datasets containing dataset-specific information [4], such as in multi-task functional magnetic resonance imaging (fMRI) data [2] or multimodal image fusion [3].Moreover, many datasets of interest have three or more dimensions, such as spatial and temporal, which poses a challenge to classical data processing methods. Challenges: With the growing emphasis of data-driven methods approaches based on matrix and tensor decompositions, which are directly interpretable, the field is transforming. However, the theoretical study of more flexible factorizations is still in its infancy. The uniqueness of coupled tensor decompositions was only investigated recently [7]. More flexible decompositions have been proposed [8], but existing uniqueness results are still incipient [3]. Despite considerable advances in machine leaning methods for data fusion and clustering in recent years, current methods are limited in their capacity to jointly account for information that is common and specific to different subgroups of datasets. Addressing such challenges is of fundamental importance when developing neuroimaging data analysis methods. Research program: The Ph.D. candidate will develop new flexible matrix/tensor decomposition methods that can unravel the common and specific information of the different datasets. This can lead to discovering subgroups of datasets which share common features. A key aspect of the develop methods will be their interpretability and the theoretical guarantees, for which the use of tensor decompositions provides an adequate mathematical framework [7]. This will involve important methodological challenges, such as the development of adequate metrics to measure the similarity between the different multi-dimensional datasets (such as distances in Riemannian manifolds), solving large-scale optimization problems, and linking clustering and tensor decompositions into a unified unsupervised learning framework. The developed methods will be applied for analyzing multi-subject fMRI data for personalized medicine, finding subject-specific features that are predictive of mental disorders or which can characterize subtypes of diseases and risk groups for addictive behavior [2,5]. Of particular interest is the longitudinal ABCD study [6], which collects fMRI and non-neuroimaging data (e.g., cognitive scores, substance use) of the same subjects over time. Supervision and environment: The candidate will be jointly supervised by Prof. Sebastian Miron, Dr. Ricardo Borsoi, and Prof. David Brie, members of the Multidimensional Signal Processing (SiMul) team (https://cran-simul.github.io/), CRAN Laboratory, University of Lorraine, France, and by Prof. Tülay Adali, director of the Machine Learning for Signal Processing (MLSP) Laboratory (https://mlsp.umbc.edu/), University of Maryland Baltimore County (UMBC), USA. He/She will be primarily based in the CRAN Laboratory, University of Lorraine, in Vandoeuvre-lèes-Nancy, France, with the possibility for research visits to the MLSP lab in Baltimore, USA.

Profil du candidat

Master ou équivalent, avec une expérience dans l'un ou plusieurs des domaines suivants : analyse de données, traitement du signal, apprentissage automatique, mathématiques appliquées. Bonnes capacités de communication en anglais (écrit et oral).

Candidate profile

Master's degree or equivalent, with experience in one or more of the following topics: data analysis, signal processing, machine learning, applied mathematics. Good communication skills in English (written and oral).

Référence biblio

[1] D. Lahat et al., ``Multimodal data fusion: an overview of methods, challenges, and prospects,'' Proceedings of the IEEE, vol. 103, no. 9, pp. 1449–1477, 2015.

[2] M. Akhonda et al., ``Disjoint subspaces for common and distinct component analysis: Application to the fusion of multi-task FMRI data,'' Journal of Neuroscience Methods, vol. 358, p. 109214, 2021.

[3] R. A. Borsoi et al., ``Coupled tensor decomposition for hyperspectral and multispectral image fusion with inter-image variability,'' IEEE Journal of Selected Topics in Signal Processing, vol. 15, no. 3, pp. 702-717, 2021.

[4] A. K. Smilde et al., ``Common and distinct components in data fusion,'' Journal of Chemometrics, vol. 31, no. 7, p. e2900, 2017.

[5] E. S. Finn et al., ``Functional connectome fingerprinting: identifying individuals using pat- terns of brain connectivity,'' Nature Neuroscience, vol. 18, no. 11, pp. 1664-1671, 2015.

[6] B. J. Casey et al., ``The adolescent brain cognitive development (ABCD) study: imaging acquisition across 21 sites,'' Developmental Cognitive Neuroscience, vol. 32, pp. 43-54, 2018.

[7] M. Sørensen and L. D. De Lathauwer, ``Coupled canonical polyadic decompositions and (coupled) decompositions in multilinear rank-$(L_{r,n},L_{r,n},1)$ terms-part I: Uniqueness,'' SIAM Journal on Matrix Analysis and Applications, vol. 36, no. 2, pp. 496-522, 2015.

[8] E. Acar et al., ``Structure-revealing data fusion,'' BMC Bioinformatics, vol. 15, no. 1, pp. 1-17, 2014.