Apprentissage statistique à grande échelle et applications – MACARON
La modélisation statistique nécessite de représenter des mesures liées à un phénomène physique sous forme exploitable par un ordinateur, avant d'apprendre un modèle qui permet d'expliquer ces observations. Récemment, des modèles de grande dimension ont obtenu des succès importants pour résoudre des problèmes de prédiction difficiles, mais ce type d'approche nécessite de lever certains verrous méthodologiques: (i) une grande quantité de données d'entraînement est souvent nécessaire pour apprendre des modèles de très grande dimension, et des méthodes computationelles qui passent à l'échelle à la fois en quantité de données et taille du modèle restent à développer; (ii) les modèles de dimension gigantesque sont durs à visualiser et interpréter, ce qui est problématique lorsqu'il est important de comprendre les modèles, comme en sciences expérimentales.
Le projet MACARON est une tentative de développement de nouveaux outils mathématiques et algorithmiques pour lever les verrous ci-dessus. Notre but est d'utiliser des données pour résoudre des problèmes scientifiques grâce à des techniques d'apprentissage statistique. Par conséquent, notre projet a deux axes différents, l'un méthodologique, l'autre appliqué. L'axe méthodologique s'intéresse aux limitations actuelles de l'apprentissage statistique pour traiter à la fois des modèles de dimension gigantesque et une grande quantité de données. Le deuxième axe cherche à résoudre des problèmes ouverts en bioinformatique, vision artificielle, traitement d'image et neuroscience, où une quantité massive de données est actuellement produite et où des modèles de grande dimension donnent lieu à des difficultés computationnelleses. Notre projet est mené par une équipe pluri-disciplinaire compenant des experts de ces domaines divers, ce qui nous permettra de développer des techniques d'apprentissage statistique avec un impact scientifique et technologique concret.
Dans l'axe méthodologique, nous proposons de nouvelles directions en apprentissage statistique qui exploitent simultanément deux principes: (i) l'optimisation stochastique, qui est maintenant classique pour traiter une grande quantité de données; (ii) l'estimation parcimonieuse dans des espaces structurés de données. La parcimonie de la solution d'un problème est un atout important pour interpréter des modèles de très grande dimension, mais elle peut aussi être utilisée pour obtenir des algorithmes rapides lorsque l'espace de représentation des données est structuré. Dans le contexte de notre projet, la structure sera soit apprise sur les données, soit pré-définie dans le but d'obtenir une estimation parcimonieuse rapide.
Dans l'axe appliqué, nous avons identifié plusieurs problèmes scientifiques qui peuvent bénéficier d'avancées méthodologiques. Nous avons déjà obtenu des résultats prometteurs en bioinformatique pour le séquençage de données ADN/ARN, où nous effectuons de l'estimation parcimonieuse dans un espace de taille exponentielle. Nous allons poursuivre cet effort, et aussi nous intéresser à l'imputation de genotype et au phasage d'haplotype, qui peuvent bénéficier de techniques rapides de complétion de matrice. Nous allons aussi développer de nouveaux modèles d'images de très grande dimension pour la reconnaissance visuelle, le traitement d'image et les neurosciences du cortex visuel. Bien que ces trois domaines soient éloignés, ceux-ci donnent lieu à des problèmes de prédiction très similaires: étant donné une image, nous pouvons avoir pour but de prédire le contenu de l'image, la restaurer, ou bien prédire l'activité neuronale d'un sujet qui visualise l'image. Les modèles prédictifs dans ces trois domaines utilisent un modèle d'image sous-jacent. Des modèles plus riches, de plus haute dimension, devraient nous permettre d'obtenir une meilleure performance de prédiction et de mieux comprendre les phénomènes analysés.
Coordination du projet
Julien Mairal (Centre de Recherche Inria Grenoble Rhône-Alpes)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
Inria Centre de Recherche Inria Grenoble Rhône-Alpes
Aide de l'ANR 349 979 euros
Début et durée du projet scientifique :
September 2014
- 42 Mois