CE40 - Mathématiques 2023

Bayésien nonparamétrique, modèles complexes et noyaux, quantification de l'incertitude et modèles profonds – BACKUP

Résumé de soumission

En statistique et apprentissage modernes, les données sont souvent observées dans un espace ambiant de grande dimension. Des méthodes comme les forêts aléatoires ou les réseaux de neurones profonds ont récemment permis des performances remarquables dans ces cadres. Une raison est que les données peuvent souvent être expliquées par une structure de plus petite dimension effective.

Dans ce contexte, les méthodes bayésiennes comme les lois spike-and-slab, les arbres de régressions additifs bayésiens (BART), les réseaux de neurones bayésiens et les processus gaussiens profonds sont fréquemment utilisées en statistique et pour des applications comme l’astrophysique ou la génomique. Parmi les raisons de leur popularité on peut citer : leur flexibilité, puisqu’il est relativement aisé de modéliser une structure inconnue sous-jacente à travers une loi a priori; la palette étendue de méthodes de simulation disponibles, en particulier variationnelles; leur capacité à quantifier l’incertitude à travers les régions de crédibilité. Les succès empiriques sont nombreux, mais il y a un besoin important de compréhension et de validation de ces méthodes. Mathématiquement, il s’agit de comprendre et de démontrer sous quelles conditions de tels algorithmes sont effectivement pertinents.

Le projet BACKUP obtiendra des garanties théoriques pour ces méthodes, suivant trois axes de recherche. Le premier concerne l’utilisation de lois a posteriori bayésiennes dans des modèles de grande dimension et à variables latentes, pour résoudre des questions de tests multiples et de sélection de variables. Le second verra l’obtention de résultats fondateurs pour les forêts aléatoires et les réseaux de neurones bayésiens profonds, pour les loi a posteriori et leurs pendants variationnels. Le troisième répondra à la question fondamentale de la quantification de l’incertitude : des régions de confiance optimales seront obtenues à partir de régions de crédibilité bayésiennes bien choisies.

Ismaël CASTILLO (Laboratoire de Probabilités, Statistique et Modélisation)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LMO Laboratoire de mathématiques d'Orsay
LPSM Laboratoire de Probabilités, Statistique et Modélisation
IMT Institut de Mathématiques de Toulouse

Aide de l'ANR 516 941 euros
Début et durée du projet scientifique : octobre 2023 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.