CE40 - Mathématiques, informatique théorique, automatique et traitement du signal

Solutions bayésiennes approchées pour l'inférence dans de grands jeux de données et dans des modèles complexes – ABSint

Résumé de soumission

Alors que les années 1990 ont vu un formidable développement d'outils informatiques et d´algorithmes puissants, grâce à la révolution MCMC, l'ère actuelle des `` Big Data'' et des modèles de paramètres de grande dimension souligne les limites de ce qui est maintenant devenu une approche traditionnelle. Ces limitations peuvent être adossées soit à l'énorme quantité de données à traiter soit à la structure même des modèles probabilistes ou mécaniques, par exemple quand elles impliquent un trop grand nombre de paramètres. De nombreux exemples de cette difficulté ou impossibilité de calcul peuvent être trouvés en biologie (génomique, protéomique), dans l'analyse de réseaux, du signal et de l'image.

Cependant, grâce à ces mêmes outils, la statistique bayésienne non paramétrique est à présent un domaine important de recherche en statistique et machine-learning, et une méthodologie reconnue dans les domaines appliqués, tant pour ses développements théoriques, avec de meilleures caractéristiques de convergence dans les modèles bien et mal spécifiés, qu'en termes de méthodologie. Il est cependant clair que les propriétés de convergence associées à ces procédures ne sont pas applicables à un grand nombre de problèmes de modélisation et qu'elles doivent être remplacées par d'autres structures.

Nous sommes donc désormais arrivés à un tournant pour ces outils méthodologiques et algorithmiques qui ont fait le succès de l'analyse bayésienne dans de nombreux domaines appliqués et qui constituent une approche valide théoriquement pour l'inférence statistique. Ces outils doivent donc s'adapter ou bien disparaître face à la pression actuelle d'outils d'optimisation plus rudimentaires qui offrent des instantanés partiels du modèle à estimer dans un temps beaucoup
plus court. Puisque nous adoptons la perspective fondationnelle que l'analyse bayésienne (et les statistiques dans leur ensemble) fournissent une valeur ajoutée
considérable à l'apprentissage par machine (machine learning), en couvrant à la fois la problématique de la sélection des modèles et de l'analyse de l'incertitude attachée à toute décision, nous visons dans ce projet à valider et à étendre nos outils de sorte à surmonter cette crise des fondamentaux, en proposant des méthodes bayésiennes approximatives qui ont commencé à émerger ces dernières années à partir de domaines spécifiques des applications.

La première direction de ce projet porte sur des outils bayésiens approximatifs d'inférence, leurs extensions, leur calibration et leur validation potentielle. Le sujet doit bien sûr être compris dans un sens large qui couvre les domaines spécifiques des membres des équipes de recherche, incluant les méthodes ABC (de calcul approximatif bayésien, aussi connu comme méthodes libres de la vraisemblance) et les approximations variationnelles. Ces techniques partagent la propriété d'aborder et d'analyser des modèles où la vraie fonction de vraisemblance ne peut être évaluée numériquement ou complétée. Nous visons à les réunir en une seule classe de méthodes, à y agréger des techniques bayésiennes non-paramétriques afin d'obtenir des approximations plus efficaces et à fournir simultanément un degré de validation de ces approximations.

Un thème second de ce projet est l'étude des propriétés asymptotiques des distributions a posteriori dans des modèles de haute dimension complexes, vers des mesures bayésiennes robustes d'incertitude, comme les régions crédibles. Nous allons étudier des approches génériques en termes de leurs capacités de modélisation et nous concentrer davantage sur les deux familles de problèmes spécifiques d'échantillonnage motivés par les applications de grande dimension abordées dans ce projet.

Coordinateur du projet

Monsieur Christian Robert (Centre de recherches en mathématiques de la décision)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

University of Oxford / Statistics
CEREMADE Centre de recherches en mathématiques de la décision
CMAP Centre de Mathématiques Appliquées
IMAG Institut Montpelliérain Alexander Grothendieck

Aide de l'ANR 345 150 euros
Début et durée du projet scientifique : décembre 2018 - 48 Mois

Liens utiles

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter