Apprentissage statistique avec transport optimal – OATMIL
Dans un monde où la donnée revêt une importance toute particulière de part son abondance et l'information qu'elle véhicule, il ne fait aucun doute que les méthodes associées d'extraction de la connaissance et d'exploitation sont devenus un challenge scientifique et technique de premier plan, offrant de multiples opportunités par leurs implications sociétales et industrielles. Ce challenge fait l'objet d'études approfondies dans un plusieurs communautés scientifiques (apprentissage, traitement du signal, mathématiques appliquées, informatique entre autre) et converge vers une discipline identifiée comme Science des Données. Au travers d'algorithmes, celle-ci propose d'extraire des informations pertinentes en assurant un fonctionnement optimal mais limité par les ressources calculatoires et énergétiques disponibles. Cette science des algorithmes, dénotée par le terme anglais machine learning (ML), utilise des distributions empiriques de données pour paramétrer et configurer ses programmes.
La vision portée par le projet OATMIL est que la théorie du Transport Optimal (TO) a le potentiel d'apporter plusieurs solutions élégantes et conceptuellement riches aux problèmes sous-jacent, notamment en apportant une perspective géométrique aux problèmes traditionnellement rencontrés en ML. De manière symétrique, nous suggérons aussi que le ML est en mesure d'apporter une famille de méthodes permettant de répondre au problème de la complexité calculatoire du TO.
OATMIL se place donc à la croisée de ces deux domaines en proposant une relecture de plusieurs problèmes classiques mais aussi novateurs sous l'angle du TO. Basés sur les perspectives géométriques offertes par le TO, ces outils ont le potentiel d'ouvrir de nouveaux développements en ML par la richesse de leurs exploitations des distributions de données empiriques. Ils seront développés dans le cadre du projet sous la forme d'une boite à outils qui sera rendue accessible à toute la communauté scientifique et industrielle, facilitant la diffusion de ces nouveaux concepts dans la communauté des sciences des données. L'intérêt pratique de ces nouveaux outils sera évalué sur trois types d'applications (données issues de la télédétection, de l'astronomie ou des signaux audio) correspondant à l'expertise des trois partenaires académiques. De plus, un collaborateur industriel non-financé dans le projet étudiera et validera sur un cas d'usage industriel particulier (animation par ordinateur) la pertinence des solutions apportées par le projet.
Coordinateur du projet
Monsieur Nicolas COURTY (Institut de recherche en informatique et systèmes aléatoires)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
IRISA Institut de recherche en informatique et systèmes aléatoires
LITIS Laboratoire d'Informatique, du Traitement de l'information et des Systèmes
CMAP CMAP - Ecole polytechique
LAGRANGE (OCA/CNRS/UNS) Laboratoire J-L Lagrange (OCA/CNRS/UNS)
Aide de l'ANR 390 570 euros
Début et durée du projet scientifique :
- 48 Mois