Observatoire de données à l'ère du Big Data multi-source – Aerial
L'explosion récente des capacités et des modalités d'acquisition de données offre une vision fine et une multiplicité de points de vue des objets auxquels s'intéressent l'astronomie et l'observation de la Terre. La mission Gaia de l'ESA, par exemple, a conduit à un catalogue de milliards d'objets célestes (planètes, étoiles, galaxies etc.). La mission Euclid de l'ESA conduira de même à un relevé de plusieurs milliards de galaxies et, à l'aube de celle de la mission LISA qui observera l'Univers via les ondes gravitationnelles, la question des moyens pour une utilisation conjointe de ces données massives, hétérogènes mais complémentaires, se fait prégnante. À ces données spatiales s'ajoutent des observations au sol d'une multiplicité d'observatoires dans une diversité de domaines de longueur d'onde, notamment en radio grâce à SKA prochainement avec des volumes de données encore significativement supérieurs. La situation est similaire pour l'observation de la Terre avec un large éventail de données relatives aux zones terrestres, océaniques etc. d'origine spatiale (notamment dans la cadre du programme Copernicus), mais aussi d'instruments au sol, qu'il est important de combiner pour comprendre le système Terre.
Dans ce contexte du « big data multi-sources », l'OCA et ACRI-ST proposent le laboratoire commun AERIAL pour le développement d'un observatoire des données . Son objet principal est de développer des solutions matérielles et logicielles que GAIA-DATA, les ESA Datalabs, le Centre de Données de Strasbourg (CDS) ou SKA pour le réseau SRCNet par exemple pourront choisir de déployer. Cet effort s'appuie sur 3 piliers: (1) le développement de solutions permettant l'agrégation de bases de données hétérogènes et assurant leur interopérabilité, aptes à gérer la diversité de leurs formats et de leurs qualités, capables de passer à l'échelle d'un big data lui-même distribué géographiquement; (2) la construction d'un service d'observation au sens de l'exploration de ces bases, non seulement via un système de requêtes adapté à leur diversité mais aussi via des rapprochements issus de traitements à grande échelle par de l'Intelligence Artificielle et via des capacités de visualisation avancées permettant une vision synthétique malgré les grands volumes de données; (3) une capacité de traitement au plus près de la donnée, à l'échelle du High Performance Computing (HPC), s'appuyant d'une part sur une archive logicielle permettant la préservation et la réutilisation de codes source existants, et d'autre part sur un environnement permettant aux utilisateurs de développer, d'exécuter et d'optimiser leurs propres codes, notamment à base d'IA, pour l'exploitation de ces données. De telles recherches vont ouvrir la voie à davantage de science pour l'OCA à travers son implication forte dans les projets Gaia, Euclid, LISA et SKA, et des opportunités de nouveaux services et marchés pour ACRI-ST grâce aux nouveaux outils et technologies développés et l'expertise acquise dans ces domaines de la science.
Cette proposition s'inscrit pleinement dans les recommandations de la feuille de route ASTRONET 2022-2035 récemment publiée pour une stratégie permettant de changer d'échelle pour l'exploitation des bases de données d'observation et des bases de code visant à en tirer toute leur valeur. Elle doit permettre de réduire les transferts de données tout en permettant leur exploration et exploitation, et de concentrer les traitements ; ceci participe ainsi à un effort de réduction des besoins d'infrastructures réseau et à l'amélioration de l'efficacité énergétique du calcul. Ceci constitue notre objectif de développement durable au sens de l'objectif 9 de l'ONU "Industrie, innovation et infrastructures".
Enfin, cette proposition concourt à la Science Ouverte, tant par le partage des données et des codes que par l'opportunité qu'elle offre de reproduire et de bâtir sur les résultats qui en sont issus
Coordination du projet
Shan Mignot (GALILEE-OCA)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
ACRI-ST ACRI-ST
GALILEEOCA GALILEE-OCA
Aide de l'ANR 358 660 euros
Début et durée du projet scientifique :
novembre 2024
- 54 Mois