CE40 - Mathématiques, informatique théorique, automatique et traitement du signal

Apprentissage PAC-bayésien agnostique – BEAGLE

Résumé de soumission

BEAGLE se situe dans le champs de l'apprentissage statistique (voir les ouvrages de Vapnik, 2000, et Shalev-Shwartz et Ben-David, 2014), qui est le pendant théorique de l'apprentissage automatique. L'apprentissage statistique est au coeur de nombreux domaines de recherche où la profusion de données massives conduit à un décalage entre utilisateurs d'algorithmes, incités à utiliser ces algorithmes tels quels, et théoriciens qui en étudient les propriétés. Ce phénomène, motivé et acceléré par l'urgence d'extraire la connaissance et bien souvent la valeur de ces jeux de données gigantesques, frappe par son ampleur. En particulier, les hypothèses mathématiques nécessaires pour obtenir des garanties intéressantes portant sur des algorithmes d'apprentissage (telles que la consistence, ou des vitesses explicites de convergence) sont la plupart du temps ignorées ou même violées par les utilisateurs. Dans le même temps, très peu de résultats théoriques portent sur la bonne calibration de paramètres pour ces algorithmes, conduisant les utilisateurs à s'appuyer sur des heuristiques qui ne respectent pas les hypothèses mentionnées plus haut, et parfait même les contredisent. Bien que l'utilisation intensive d'algorithmes d'apprentissage statistique ait permis des avancées significatives dans de nombreux domaines, le potentiel de ces algorithmes est loin d'être pleinement atteint, justifiant un effort de recherche constant de la communauté mathématique pour réduire le fossé entre théoriciens et utilisateurs. BEAGLE propose de les rapprocher en créant un nouveau paradigme d'apprentissage statistique, dit agnostique. Nous faisons en effet le constat que des éléments subjectifs interviennent, à la fois côté théorie et côté algorithmes. Des choix arbitraires, tels que la calibration de paramètres, ne bénéficient pas de justification théorique - inversement, certaines hypothèses théoriques n'ont pas de sens pour certaines données contemporaines. Tous les algorithmes d'apprentissage statistique reposent sur des éléments subjectifs tels qu'hypothèses sur les données (comme l'indépendance ou l'hypothèse de même loi), la spécification d'un modèle (procédant de contraintes calculatoires par exemple), la calibration de paramètres ou le choix de métriques (qui permet de quantifier les performances d'algorithmes). Ce cadre est gnostique au sens où il suppose que le phénomène étudié peut être bien approché et modélisé, sans validation possible. BEAGLE propose d'éliminer toute part de subjectivité et d'aller vers une automatisation du processus d'apprentissage. L'ingrédient clé est la théorie PAC-bayésienne, couplée à de récents développements en apprentissage et statistique computationelle. BEAGLE vise un double objectif de retombées théorique et algorithmique.

Coordination du projet

Benjamin Guedj (Inria Lille - Nord Europe)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Inria LNE Inria Lille - Nord Europe

Aide de l'ANR 181 116 euros
Début et durée du projet scientifique : février 2019 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter