DS0705 -

Inférence bayésienne à ressources limitées - données massives et modèles coûteux – BoB

Résumé de soumission

Les méthodes bayésiennes sont un ensemble d'algorithmes statistiques pour mettre à jour une connaissance scientifique à partir d'une expérience. Elles transforment données et modèles en décisions, en prenant en compute les incertitudes sur les modèles et leurs paramètres, ce qui les rend populaires parmi les biologistes, physiciens ou ingénieurs. Cependant, les méthodes bayésiennes sont basées sur 1) des accès répétés à l'ensemble des données obtenues dans l'expérience, et 2) des évaluations répétées du modèle qui décrit le processus observé. Les tendances actuelles à la collection massive de données et à l'établissement de modèles complexes posent donc deux questions majeures.

Les expériences, les observations et les simulations numériques génèrent aujourd'hui des pétaoctets de données, comme en physique des particules avec le LHC. Simultanément, la recherche appliquée est devenue très centrée sur les données, et nous avons besoin de nouveaux paradigmes d'acquisition, de traitement, de découverte, d'échange et d'analyse de données. Pour que le traitement statistique passe à l'échelle de ces ensembles massifs de données, les algorithmes doivent requérir peu d'itérations et/ou peu d'accès au données par itération.

Ce n'est pas seulement la taille des jeux de données qui augmente à grande vitesse. Les biologistes cellulaires, par exemple, ont plutôt peu de données mais dérivent des modèles composés de systèmes de dizaines d'équations différentielles non-linéaires, pour décrire des dynamiques complexes. Dans un tel cadre, évaluer la performance d'un jeu de paramètres du modèle requiert la résolution de tels systèmes, ce qui peut se compter en minutes sur un ordinateur récent. Les algorithmes statistiques basés sur des millions d'évaluations séquentielles d'un tel modèle sont donc inapplicables.

Dans ce projet, nous nous attaquons au compromis coût-précision des méthodes bayésiennes, pour obtenir des algorithmes d'inférence généraux qui passent à l'échelle avec le nombre d'observations du jeu de données et le nombre d'évaluations du modèle. À cet effet, nous proposons un ensemble d'objectifs avec des compromis risque-récompense panachés. En particulier, pour les expériences avec un nombre massif de mesures, nous développerons les méthodes existantes de Monte Carlo basées sur le sous-échantillonnage des données, tout en proposant un cadre nouveau basé sur la théorie de la décision, qui prendra en compte les contraintes d'accès aux données. Pour les modèles coûteux à évaluer, nous construisons un ambitieux programme de recherche autour des méthodes Monte Carlo à base de processus déterminantaux. À précision constante, ces processus ont le potentiel de diminuer le nombre d'évaluations d'un modèle par rapport aux méthodes Monte Carlo traditionnelles. En bref, en utilisant des méthodes innovantes comme les méthodes Monte Carlo à base de sous-échantillonnage et les processus déterminantaux, nous proposons dans ce projet de repousser les limites d'applicabilité de l'inférence bayésienne.

Coordination du projet

Rémi Bardenet (Centre de Recherche Informatique, Signal et Automatique de Lille)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

CRIStAL Centre de Recherche Informatique, Signal et Automatique de Lille

Aide de l'ANR 171 779 euros
Début et durée du projet scientifique : septembre 2016 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter