CE40 - Mathématiques, informatique théorique, automatique et traitement du signal

Solutions bayésiennes approchées pour l'inférence dans de grands jeux de données et dans des modèles complexes – ABSint

Absinte

Ce projet est motivé par trois branches d'applications<br />où les grands ensembles de données et les modèles complexes représentent un véritable défi: génétique des populations et analyses phylogénétiques, neurosciences et astrostatistiques. Les impacts attendus du projet sont le développement d'outils statistiques solides pour analyser des ensembles de données massifs et des modèles complexes et la recherche de solutions approximatives pour analyser des structures de données plus avancées.

développement d'outils statistiques pour analyser des ensembles de données massifs et des modèles complexes et rechercher des solutions approximatives pour analyser des structure de données complexes

Notre objectif principal est de<br />fournir un éventail plus large et générique d’outils statistiques capables de gérer les «mégadonnées» sans compromettre<br />soit la profondeur de l'analyse statistique, soit la précision des prédictions statistiques dérivées<br />à partir de ces données.<br />Les impacts envisagés du projet sont doubles: (1) les impacts scientifiques pour les développements du son<br />outils statistiques pour analyser des ensembles de données massifs et des modèles complexes et (2) les conséquences sur le<br />domaines appliqués conduisant à la recherche de solutions approximatives dans leur capacité à analyser des types de données plus avancés

ABC: scalabilité, réduction de la variance (Rao-Blackwellisation), structures de dépendance dans l'inférence de Bayes variationnelle, espérance
propagation (EP), réduction de la dimensionnalité par projections aléatoires et tests de quasi-suffisance, approximations variationnelles pour les modèles de graphes aléatoires,
Monte Carlo: approches déterministes telles que le quasi-Monte Carlo (QMC), la quadrature bayésienne et les variables de contrôle fonctionnel, les bayes variationnelles, la propagation des attentes,
mesures de l'incertitude: propriétés asymptotiques des distributions postérieures dans les modèles complexes et de haute dimension, propriété de Bernstein-von Mises, régression de Poisson non paramétrique, facteurs de Bayes pour les non-paramétriques, a priori de parcimonie, processus de Hawkes, modèles de Markov cachés, classification des courbes

diffusion de la nouvelle version du software DIYABC, DIYABC-RF (2020)

Chapuis, M.-P., Raynal, L., Plantamp, C., Meynard, C. N., Blondin, L., Marin, J.-M., and Estoup, A. (2020). A young age of subspecific divergence in the desert locust inferred by ABC random forest. Molecular Ecology, 29(23) :4542–4558.
Clarté, G., Robert, C. P., Ryder, R. J., and Stoehr, J. (2020). Componentwise approximate Bayesian computation via Gibbs–like steps. Biometrika. To appear.

Collin, F.-D., Durif, G., Raynal, L., Lombaert, E., Gautier, M., Vitalis, R., Marin, J.-M., and Estoup, A. (2020). Diyabc random forest v1.0 : extending approximate Bayesian computation with supervised machine learning to infer demographic history from genetic polymorphisms. Molecular Ecology Resources. To appear.

Durmus, A., Majewski, S., and Miasojedow, B. (2019). Analysis of Langevin Monte Carlo via convex optimization. The Journal of Machine Learning Research, 20(1) :2666–2711.

Liutkus, A., Simsekli, U., Majewski, S., Durmus, A., and Stöter, F.-R. (2019). Sliced-Wasserstein flows : Nonparametric generative modeling via optimal transport and diffusions. In International Conference on Machine Learning, pages 4104–4113. PMLR.

diffusion de la nouvelle version du logiciel DIYABC, DIYABC-RF (2020)

organisation des séminaires virtuels One World ABC (2020-) et de l'atelier virtuel ABC à Svalbard (2021)

Chapuis, M.-P., Raynal, L., Plantamp, C., Meynard, C. N., Blondin, L., Marin, J.-M., and Estoup, A. (2020). A young age of subspecific divergence in the desert locust inferred by ABC random forest. Molecular Ecology, 29(23) :4542–4558.
Clarté, G., Robert, C. P., Ryder, R. J., and Stoehr, J. (2020). Componentwise approximate Bayesian computation via Gibbs–like steps. Biometrika. To appear.

Collin, F.-D., Durif, G., Raynal, L., Lombaert, E., Gautier, M., Vitalis, R., Marin, J.-M., and Estoup, A. (2020). Diyabc random forest v1.0 : extending approximate Bayesian computation with supervised machine learning to infer demographic history from genetic polymorphisms. Molecular Ecology Resources. To appear.

Durmus, A., Majewski, S., and Miasojedow, B. (2019). Analysis of Langevin Monte Carlo via convex optimization. The Journal of Machine Learning Research, 20(1) :2666–2711.

Liutkus, A., Simsekli, U., Majewski, S., Durmus, A., and Stöter, F.-R. (2019). Sliced-Wasserstein flows : Nonparametric generative modeling via optimal transport and diffusions. In International Conference on Machine Learning, pages 4104–4113. PMLR.

Alors que les années 1990 ont vu un formidable développement d'outils informatiques et d´algorithmes puissants, grâce à la révolution MCMC, l'ère actuelle des `` Big Data'' et des modèles de paramètres de grande dimension souligne les limites de ce qui est maintenant devenu une approche traditionnelle. Ces limitations peuvent être adossées soit à l'énorme quantité de données à traiter soit à la structure même des modèles probabilistes ou mécaniques, par exemple quand elles impliquent un trop grand nombre de paramètres. De nombreux exemples de cette difficulté ou impossibilité de calcul peuvent être trouvés en biologie (génomique, protéomique), dans l'analyse de réseaux, du signal et de l'image.

Cependant, grâce à ces mêmes outils, la statistique bayésienne non paramétrique est à présent un domaine important de recherche en statistique et machine-learning, et une méthodologie reconnue dans les domaines appliqués, tant pour ses développements théoriques, avec de meilleures caractéristiques de convergence dans les modèles bien et mal spécifiés, qu'en termes de méthodologie. Il est cependant clair que les propriétés de convergence associées à ces procédures ne sont pas applicables à un grand nombre de problèmes de modélisation et qu'elles doivent être remplacées par d'autres structures.

Nous sommes donc désormais arrivés à un tournant pour ces outils méthodologiques et algorithmiques qui ont fait le succès de l'analyse bayésienne dans de nombreux domaines appliqués et qui constituent une approche valide théoriquement pour l'inférence statistique. Ces outils doivent donc s'adapter ou bien disparaître face à la pression actuelle d'outils d'optimisation plus rudimentaires qui offrent des instantanés partiels du modèle à estimer dans un temps beaucoup
plus court. Puisque nous adoptons la perspective fondationnelle que l'analyse bayésienne (et les statistiques dans leur ensemble) fournissent une valeur ajoutée
considérable à l'apprentissage par machine (machine learning), en couvrant à la fois la problématique de la sélection des modèles et de l'analyse de l'incertitude attachée à toute décision, nous visons dans ce projet à valider et à étendre nos outils de sorte à surmonter cette crise des fondamentaux, en proposant des méthodes bayésiennes approximatives qui ont commencé à émerger ces dernières années à partir de domaines spécifiques des applications.

La première direction de ce projet porte sur des outils bayésiens approximatifs d'inférence, leurs extensions, leur calibration et leur validation potentielle. Le sujet doit bien sûr être compris dans un sens large qui couvre les domaines spécifiques des membres des équipes de recherche, incluant les méthodes ABC (de calcul approximatif bayésien, aussi connu comme méthodes libres de la vraisemblance) et les approximations variationnelles. Ces techniques partagent la propriété d'aborder et d'analyser des modèles où la vraie fonction de vraisemblance ne peut être évaluée numériquement ou complétée. Nous visons à les réunir en une seule classe de méthodes, à y agréger des techniques bayésiennes non-paramétriques afin d'obtenir des approximations plus efficaces et à fournir simultanément un degré de validation de ces approximations.

Un thème second de ce projet est l'étude des propriétés asymptotiques des distributions a posteriori dans des modèles de haute dimension complexes, vers des mesures bayésiennes robustes d'incertitude, comme les régions crédibles. Nous allons étudier des approches génériques en termes de leurs capacités de modélisation et nous concentrer davantage sur les deux familles de problèmes spécifiques d'échantillonnage motivés par les applications de grande dimension abordées dans ce projet.

Coordination du projet

Christian Robert (Centre de recherches en mathématiques de la décision)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

University of Oxford / Statistics
CEREMADE Centre de recherches en mathématiques de la décision
CMAP Centre de Mathématiques Appliquées
IMAG Institut Montpelliérain Alexander Grothendieck

Aide de l'ANR 345 150 euros
Début et durée du projet scientifique : décembre 2018 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter