DS0706 -

Grosses données, Grosses simulations, Big Bang et Grands problèmes: Algorithes de reconstruction bayésiennes contraintes par la physique et application à l'analyse de données cosmologiques – BIG4

Grosses données, Grosses simulations, Big Bang et Grands problèmes

Développement d'algorithmes de reconstruction bayésiennes contraintes par la physique et application à l'analyse de données cosmologiques.

Développement d'un chaine complète d'analyse bayésienne, guidée par la physique et robuste aux effets systématiques

Le projet BIG4 vise à développer de nouveaux algorithmes de reconstruction statistique de champ sur grille, telles que des images ou des champs de densité ainsi que de fournir un environnement d'analyse à travers les technologies Web. Il permettra ainsi de créer une plateforme synergique et à haute résolution d'analyse des Grosses Données. Il s'appuiera à la fois sur la physique des phénomènes pour réduire les incertitudes et de propriétés d'échelle des fonctions de vraisemblance pour augmenter la vitesse des calculs. Les techniques utilisées seront issues des méthodes d’échantillonnage hamiltonien de l'espace des paramètres à plusieurs millions de dimensions. Ce projet ambitionne en particulier de révolutionner l'analyse des données astronomique, domaine soumis à un déluge croissant de donnée, notamment avec les missions Euclid et le projet LSST. Néanmoins il sera ancré dans le réel en faisant une exploitation des données de relevés qui seront disponibles au cours du projet, tels que SDSS3, SDSS4 et CosmicFlows-3.<br /><br />Ce projet aura des retombées dans de nombreux champ scientifique, notamment par exemple en imagerie médicale, sismologie et climatologie. Tous ces domaines scientifiques sont confrontés à des problèmes de reconstruction et de visualisations de données dont les relations aux champs physiques sous-jacents sont non-linéaires.<br /><br />Enfin, nous développerons et fournirons à la communauté de nouveaux outils de visualisation des champs reconstruits en ligne, s'appuyant sur les dernières technologie WebGL et les modules développées par la communauté. Ces outils permettront une visualisation des distributions de probabilités qui dépendent de millions de paramètres sans avoir télécharger localement les données brutes de reconstruction.

La réalisation de ce projet s'appuie sur des techniques statistiques, algorithmiques, numériques de pointe pour réaliser une machine ultime d'inférence de champ physique complexe à partir de données parcellaires et bruitées. Pour cela nous démarrons avec des méthodes à base de chaîne de markov hamiltonienne alimentées par des modèles de simulation à N-corps, des réseaux de neurones à apprentissage profond et de la parallélisation massive.

En parallèle nous initions une réflexion sur les méthodes de représentation de ces distributions évoluant dans des espaces de paramètres à plusieurs millions de dimensions.

Nous avons produit de nouveaux résultats fondamentaux en statistiques (Automatic physical inference; Charnock et al. 2018, PRD), modélisation d'effet systématique dans les grands relevés cosmologiques (Jasche & Lavaux, A&A, 2017), et ajustement détaillée d'une simulation à N-corps sur des données cosmologiques (Jasche & Lavaux, 2018, soumis à A&A).

Par ailleurs, la coeur de notre logiciel d'inférence est maintenant disponible en ligne (https://bitbucket.org/bayesian_lss_team/ares/). Un serveur pour effectuer des requêtes intéractives sur les modèles développés a été mis en place (https://cosmicflows.iap.fr).

De nombreux développement vont se poursuivre à la suite des premiers résultats obtenus. Nous envisageons maintenant la possibilité d’améliorer la vitesse de prédiction des modèles non-linéaires par apprentissage d'un réseau de neurone sur des exemples ne nécessitant que des informations localisées. En parallèle nous développons la possibilité de laisser un réseau de neurone flotter librement pour s’adapter aux observations, tout en ayant une architecture contrainte par des symétries physiques. En plus de ces techniques adaptées de l'industrie, nous allons nous occuper pour la prochaine période des représentations hiérarchiques pour les conditions initiales et de la simplification du modèle dynamique.

* Jasche & Lavaux, A&A, 2017, 606, A37
* Charnock, Lavaux, Wandelt, Phys. Rev. D, 2018, 97, 083004
* Hutschenreuter, S. et al, CQG (2018 accepté)
* Porqueres, Jasche, Enßlin, Lavaux, A&A 612, A31 (2018)
* Desmond, Ferreira, Lavaux, Jasche, MNRAS (2018), 474, 3

Le projet BIG4 vise à développer de nouveaux algorithmes de reconstruction statistique de champ sur grille, telles que des images ou des champs de densité ainsi que de fournir un environnement d'analyse à travers les technologies Web. Il permettra ainsi de créer une plateforme synergique et à haute résolution d'analyse des Grosses Données. Il s'appuiera à la fois sur la physique des phénomènes pour réduire les incertitudes et de propriétés d'échelle des fonctions de vraisemblance pour augmenter la vitesse des calculs. Les techniques utilisées seront issues des méthodes d’échantillonnage hamiltonien de l'espace des paramètres à plusieurs millions de dimensions. Ce projet ambitionne en particulier de révolutionner l'analyse des données astronomique, domaine soumis à un déluge croissant de donnée, notamment avec les missions Euclid et le projet LSST. Néanmoins il sera ancré dans le réel en faisant une exploitation des données de relevés qui seront disponibles au cours du projet, tels que SDSS3, SDSS4 et CosmicFlows-3.

Ce projet aura des retombées dans de nombreux champ scientifique, notamment par exemple en imagerie médicale, sismologie et climatologie. Tous ces domaines scientifiques sont confrontés à des problèmes de reconstruction et de visualisations de données dont les relations aux champs physiques sous-jacents sont non-linéaires.

Enfin, nous développerons et fournirons à la communauté de nouveaux outils de visualisation des champs reconstruits en ligne, s'appuyant sur les dernières technologie WebGL et les modules développées par la communauté. Ces outils permettront une visualisation des distributions de probabilités qui dépendent de millions de paramètres sans avoir télécharger localement les données brutes de reconstruction.

Coordinateur du projet

Monsieur Guilhem Lavaux (INSTITUT D'ASTROPHYSIQUE DE PARIS)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IAP INSTITUT D'ASTROPHYSIQUE DE PARIS

Aide de l'ANR 316 278 euros
Début et durée du projet scientifique : décembre 2016 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter