ANR-NSF (Mathématiques et Sciences du numérique) - Appel à projets générique 2023 - NSF Lead Agency 2023

Apprentissage sur des Grands jeux de Données : Application à l'analyse de données IRMf Multi-sujets – AGDAM

Résumé de soumission

De nos jours, la disponibilité croissante d'ensembles de données multiples et complémentaires associés à un problème donné pose le défi de l'extraction des caractéristiques utiles et pertinentes pour la tâche considérée. Ceci se fait généralement en considérant des modèles de mélange de sources associées à des quantités d'intérêt. Compte tenu du peu d'information sur les interactions réelle entre ensembles de données, il est important de minimiser les hypothèses sous-jacentes lors de l'estimation des sources.

Les décompositions matricielles et tensorielles conjointes permettent non seulement une interaction complète entre les ensembles de données, mais produisent également des matrices de facteurs directement interprétables. Ainsi, l'analyse vectorielle indépendante (AVI) repose sur des modèles statistiques approprié qui permet une estimation efficace des facteurs, assortie de garanties d'identifiabilité. Une approche alternative, reposant principalement sur des arguments algébriques, utilise les décompositions tensorielles couplées qui prennent en compte la structure multivoie des données et sont assorties de garanties d'identifiabilité. Un aspect crucial lorsqu'on traite des données multiples est le grand nombre d'ensembles de données, qui peut facilement atteindre plusieurs dizaines de milliers. Lorsque le nombre d'ensembles de données augmente, un défi important est de savoir comment résumer au mieux les informations tout en s'assurant que les caractéristiques liées à la variabilité individuelle dans chaque ensemble de données sont préservées. L'identification de sous-espaces homogènes, où les composantes d'un sous-espace sont fortement liées (corrélées/dépendantes), est un moyen efficace de résumer l'hétérogénéité dans les grands ensembles de données. C'est l'argument qui sous-tend les modèles de rang faible couplés, mais, avec un grand nombre d'ensembles de données, ces couplages doivent être définis à travers des sous-ensembles (homogènes) plutôt que sur tous l'ensemble de données. Il s'agit donc d'un défi important pour les méthodes tensorielles, qui peuvent cependant être facilement adaptées à de grands ensembles de données. En revanche, pour l'IVA, où ces informations sont directement capturées par un modèle de densité de probabilité multivarié, le passage à l'échelle devient une préoccupation majeure lorsque le nombre d'ensembles de données augmente. Chaque approche présente donc des avantages et des défis uniques, chacun constituant une manière différente de représenter et de traiter des données multi-ensembles.

La méthodologie développée dans cette proposition vise plusieurs grands ensembles de données spatio-temporelles qui apparaissent dans de nombreux domaines (neurosciences, sciences de l'environnement, médias sociaux, dynamique du trafic, etc.) ; l'objectif est de développer un cadre unifié et rigoureux pour extraire de cet ensemble de données des sous-groupes homogènes. Dans un premier temps, nous développerons des méthodes pour l'identification de sous-groupes homogènes dans de grands ensembles de données spatio-temporelles, selon deux axes : (i) des décompositions matricielles couplées à motivation statistique basée sur l'IVA, et (ii) des décompositions tensorielles couplées avec des composantes partagées et spécifiques aux ensembles de données. Puis, dans un deuxième temps, nous établirons les connexions entre ces deux approches, tant en termes de méthodes que de conditions d'unicité, et nous développons une méthodologie pour l'identification des sous-groupes. Enfin, nous appliquerons la méthodologie développée aux données d'IRMf, et plus particulièrement à l'étude Adolescent Brain Cognitive Development (ABCD) incluant données longitudinales complètes provenant d'une cohorte nationale et diversifiée de près de 12 000 enfants âgés de 9 à 10 ans suivis tout au long de l'adolescence.

Sebastian MIRON (Centre de recherche en automatique de Nancy)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CRAN Centre de recherche en automatique de Nancy
UMBC University of Maryland, Baltimore County

Aide de l'ANR 328 154 euros
Début et durée du projet scientifique : avril 2024 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.