Apprentissage bayésien pour les modèles coûteux, avec applications à la biologie cellulaire – Baccarat
Chaire d'intelligence artificielle «Baccarat«
Apprentissage bayésien pour les modèles coûteux
Méthodes Monte Carlo à convergence rapide
Les biologistes développent des modèles complexes de cellules, les écologistes modélisent la dynamique des écosystèmes à l'échelle mondiale. Une seule évaluation de ces modèles complexes prend des minutes ou des heures sur le matériel informatique actuel et l'adaptation de modèles probabilistes aux données biologiques peut nécessiter des millions d'évaluations en série. Les méthodes de Monte Carlo, par exemple, sont omniprésentes dans l'inférence statistique des données scientifiques, mais elles nécessitent un grand nombre d'évaluation du modèle étudié. Par ailleurs, l'utilisation d'architectures informatiques parallèles pour les méthodes Monte Carlo est souvent limitée à l'exécution de copies indépendantes du même algorithme. L'objectif de Baccarat est de fournir des méthodes de Monte Carlo qui débloquent l'inférence pour les modèles coûteux en biologie en s'attaquant directement à la lenteur de la convergence et à la parallélisation des méthodes de Monte Carlo.
Les méthodes de Monte Carlo sont des quadratures numériques aléatoires, c'est-à-dire des ensembles aléatoires de points pondérés, où chaque point (ou nœud) correspond à une valeur donnée des paramètres d'un modèle biologique. Notre cheval de bataille est de concevoir des quadratures numériques avec des nœuds répulsifs. Par exemple, les processus ponctuels déterminantaux, une distribution répulsive introduite en physique, améliorent le taux de convergence de Monte Carlo, tout comme les électrons conduisent à une estimation à faible variance des volumes en remplissant efficacement une boîte. De tels résultats conduisent à des défis informatiques et statistiques ouverts. Nous proposons de résoudre ces problèmes et de faire des processus répulsifs un nouvel outil pour les statisticiens appliqués, les spécialistes du traitement du signal et les «machine learners«.
Voici quelques-uns de nos résultats :
* Nous avons prouvé que les processus ponctuels déterminantaux (DPP) donnaient des algorithmes d'intégration au taux de convergence optimal lorsque l'intégrande est dans un espace à noyau reproduisant.
* Nous avons fourni un test statistique d'hyperuniformité, la propriété d'un processus ponctuel qui en fait un algorithme Monte Carlo rapide.
* Nous avons montré que la combinaison d'un ordinateur classique et d'un ordinateur quantique permettait d'échantillonner certains DPP finis plus rapidement qu'un ordinateur classique.
Les perspectives sont nombreuses, par exemple :
* il y a encore une différence entre les processus dont on sait montrer qu'ils résolvent efficacement le problème de l'intégration numérique et ceux qu'on sait échantillonner efficacement.
* nous avons compris que l'utilisation d'un ordinateur quantique pour échantillonner un DPP peut être naturellement optimisée de plusieurs façons. Il est permis de penser que si les ordinateurs quantiques deviennent faciles d'accès, les DPP seront une distribution standard pour tout scientifique des données.
Notre production est disponible sous la forme d'articles scientifiques de journaux, ainsi que de paquets logiciels. Voir
rbardenet.github.io
Les simulations informatiques couteuses sont devenues la norme en sciences expérimentales. Les astrophysiciens écrivent des modèles complexes de l'évolution de galaxies, les biologistes des modèles de cellules, les écologistes modélisent la dynamique d'écosystèmes à l'échelle mondiale. Une seule évaluation de ces modèles complexes peut prendre des minutes, voire des heures, sur les infrastructures informatiques d'aujourd'hui. D'un autre côté, pour apprendre les paramètres de ces modèles à partir de données expérimentales, il faut habituellement des millions d'évaluations séquentielles. Les méthodes Monte Carlo, par exemple, sont un outil de base pour l'inférence et les décisions statistiques basées sur des données scientifiques, mais elles deviennent tout simplement impossibles à mettre en oeuvre lorsque le modèle a ne serait-ce qu'une dizaine de paramètres et que l'évaluation du modèle dépasse une minute. Paradoxalement, l'utilisation d'architectures parallèles dans les algorithmes Monte Carlo est souvent limitée à faire tourner des copies indépendantes du même algorithme. Dans Baccarat, nous allons inventer des méthodes de Monte Carlo qui débloquent l'inférence des modèles couteux en nous attaquant directement au taux de convergence lent et à la parallélisation de ces méthodes.
La clé pour converger plus vite avec le nombre d'évaluations du modèle est d'introduire de la répulsivité entre les noeuds d'intégration. Par exemple, nous avons récemment prouvé que l'utilisation de processus ponctuels déterminantaux, un prototype de processus stochastique répulsif introduit en optique quantique, conduit a une convergence Monte Carlo rapide. Intuitivement, la raison est la même que celle qui fait que des électrons dans une boite magnétique, en se repoussant, remplissent l'espace de façon très uniforme et permettent donc d'estimer des volumes de façon précise. Des résultats comme le nôtre posent des questions computationnelles et statistiques difficiles. En s'attaquant à ces questions, nous proposons de faire des processus répulsifs un outil nouveau et versatile pour les statisticiens appliqués, les machine learners, et les traiteurs de signaux.
Toujours avec la répulsivité comme marteau, nous proposerons les premiers algorithmes MCMC (Monte Carlo par chaines de Markov) parallèles qui auront un taux de convergence qualitativement différent de celui d'une parallélisation naive. Pour ce faire, nous allons transformer des objets mathématiques comme les systèmes de particules en interaction et les processus non-intersectants en des algorithmes de Monte Carlo parallèles à faible communication et convergence rapide en le nombre d'évaluations du modèle à apprendre.
Coordination du projet
Rémi Bardenet (Centre de Recherche en Informatique, Signal et Automatique de Lille)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
CRIStAL Centre de Recherche en Informatique, Signal et Automatique de Lille
Aide de l'ANR 433 620 euros
Début et durée du projet scientifique :
avril 2020
- 48 Mois