Deep Learning pour les processus physiques. Application aux sciences du systèmes terrestre – DL4CLIM
Deep Learning pour les processus physiques. Application aux sciences du systèmes terrestre
The project targets the development of Deep Learning (DL) methods for the modeling of physical processes. The application domain is environment and climate.
Objectifs généraux
Le projet s'appuie sur la complémentarité de deux paradigmes scientifiques majeurs, le paradigme physique et l'apprentissage automatique (ML). Le premier s'appuie sur des modèles élaborés et complexes de phénomènes naturels mais n'offre pas de méthodes naturelles pour intégrer les données générées par les plateformes d'observation (par exemple, les satellites) et les modèles climatiques. Le second développe une approche agnostique centrée sur les données mais fait face à des défis majeurs pour la modélisation de phénomènes physiques complexes. Notre objectif est de répondre à ces défis en développant des systèmes de modélisation couplant des modèles de processus physiques basés sur la connaissance avec l'apprentissage automatique piloté par les données. Nous pensons qu'il s'agit d'un défi scientifique majeur pour les années à venir. Le projet se concentrera sur la modélisation des processus spatio-temporels caractéristiques de la dynamique du climat. L'objectif est ensuite de développer des systèmes hybrides capables d'apprendre ces dynamiques à partir de données.<br /><br />Traduit avec www.DeepL.com/Translator (version gratuite)
Le projet est organisé en deux pistes principales : les développements fondamentaux de ML et les cas d'utilisation en environnement, tous deux développés en étroite interaction. Les aspects fondamentaux couvrent globalement le développement de systèmes hybrides physiques-statistiques et visent plusieurs objectifs tels que l'apprentissage d'EDP connues à partir de données simulées, l'apprentissage de dynamiques inconnues à partir d'observations incomplètes et l'incorporation de prieurs physiques dans les modèles de Deep Learning. Pour la deuxième piste, trois cas d'utilisation ont été sélectionnés, illustrant une variété de problèmes représentatifs de la science du système terrestre (ES). Ils concernent respectivement : (1) la modélisation de la circulation des courants océaniques, (2) la détection et le suivi des tourbillons qui sont connus pour avoir un fort impact sur la productivité biologique de l'océan, (3) la modélisation de l'influence du forçage anthropique (gaz à effet de serre, ozone, etc.) sur le changement climatique.
Traduit avec www.DeepL.com/Translator (version gratuite)
Il s'agit d'une description des résultats intermédiaires obtenus après environ un an de projet.
Le travail sur les aspects fondamentaux s'est concentré sur deux questions clés, (i) la conception de cadres hybrides physique-statistique, nous permettant d'intégrer des connaissances scientifiques antérieures dans les modèles dynamiques, (ii) les questions de généralisation qui sont rapidement apparues comme un défi principal pendant nos premières investigations. Pour le premier problème, nous avons proposé un cadre  pour combiner des solveurs et des composants d'apprentissage automatique. C'est à notre connaissance la première approche de principe pour aborder ce problème avec des garanties théoriques. Une validation expérimentale a été effectuée sur des processus dynamiques représentatifs ainsi que sur des simulations de variables de surface océanique. Pour le problème de la généralisation, nous avons commencé à développer une nouvelle approche pour renforcer la généralisation à plusieurs environnements lors de la modélisation de processus physiques dynamiques.
En ce qui concerne les applications, basées sur une coopération avec des collègues de l'environnement et du climat, nous avons ciblé trois problèmes : la modélisation de la dynamique océanique, le problème de la détection et de l'attribution du changement climatique, et la détection des tourbillons à la surface de l'océan.
Traduit avec www.DeepL.com/Translator (version gratuite)
Les directions futures concernent le suivi de notre travail sur la généralisation et l'exploration de méthodes basées sur les opérateurs qui pourraient étendre les domaines d'application de nos applications actuelles. Pour les applications climatiques, nous poursuivrons nos recherches initiales.
2020
Déchelle, M., Dona, J., Plessis-Fraissard, K., Gallinari, P., & Levy, M. (2020). Bridging Dynamical Models and Deep Networks to Solve Forward and Inverse Problems. 1st NeurIPS Workshop on Interpretable Inductive Biases and Physically Structured Learning (2020), 1–11.
Moschos, E., Stegner, A., Schwander, O., & Gallinari, P. (2020). Classification of Eddy Sea Surface Temperature Signatures under Cloud Coverage. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13, 3437–3447. 
2021
Dona, J., Franceschi, J.-Y., Lamprier, S. and Gallinari, P. 2021. PDE-Driven Spatiotemporal Disentanglement. ICLR (2021).
Yin, Y., Le Guen, V., Dona, J., de Bezenac, E., Ayed, I., Thome, N. and Gallinari, P. 2021. Augmenting Physical Models with Deep Networks for Complex Dynamics Forecasting. ICLR (2021) and Journal of Statistical Mechanics: Theory and Experiment 2021 (12), 124012
Yin, Y., Ayed, I., de Bézenac, E., & Gallinari, P. (2021). Learning dynamical systems across environments.. AAAI Spring Symposium MLPS Workshop Proceedings. 
Yuan Yin, Ibrahim Ayed, Emmanuel de Bézenac, Nicolas Baskiotis, Patrick Gallinari: LEADS: Learning Dynamical Systems that Generalize Across Environments. NeurIPS 2021: 7561-7573
Motivations et programme scientifique : le projet cible le développement de méthodes de Deep Learning pour la modélisation de processus physiques. Le domaine d'application est l'environnement et le climat. Il s'appuie sur la complémentarité de deux paradigmes scientifiques, la physique et l'apprentissage automatique. Le premier utilise des modèles complexes de phénomènes naturels, mais n'offre pas de solution pour intégrer les données générées par les plateformes d'observation et les modèles climatiques. Le second développe une approche agnostique centrée sur les données, mais fait face à des défis majeurs pour la modélisation de phénomènes physiques complexes. Notre objectif est de répondre à ces défis en développant des systèmes de modélisation associant des modèles de processus physiques à un apprentissage automatique piloté par les données. Nous pensons qu'il s'agit d'un défi scientifique majeur pour les années à venir et que son impact peut être bien plus important que ce qui a été réalisé récemment dans des domaines de l'ingénierie tels que la vision.
Le projet porte sur la modélisation de processus spatio-temporels caractéristiques de la dynamique de l'environnement et du climat. Ils sont régis par des lois généralement modélisées par des équations aux dérivées partielles caractérisant la dynamique des fluides. L'objectif est de développer des systèmes hybrides capables d'apprendre cette dynamique à partir de données. Il s'articule autour de deux axes principaux : les développements fondamentaux en apprentissage et les cas d’usage en environnement, développés en étroite interaction. Les aspects fondamentaux couvrent deux sujets. Le premier concerne le développement de systèmes hybrides physico-statistiques. La création de ces modèles n’est qu’une partie du problème, et développer l’apprentissage automatique pour environnement exige la résolution de problèmes d’apprentissage spécifiques. Pour le deuxième sujet fondamental, nous avons choisi des problèmes typiques motivés par nos cas d’usage.
Pour le deuxième axe, trois cas d’usage ont été sélectionnés et illustrent des problèmes représentatifs de la science du système terrestre (ES). Ils concernent respectivement : (1) l’amélioration des modèles de circulation des courants océaniques en intégrant des informations satellitaires à haute et basse résolution, (2) la détection et le suivi de tourbillons qui ont un impact sur la productivité biologique de l’océan (3) un thème plus prospectif : la modélisation de l’influence du forçage anthropique (gaz à effet de serre, ozone, etc.) sur le changement climatique.
Équipe : le PI dirige une équipe pluridisciplinaire composée de 3 spécialistes ML et 4 spécialistes ES, travaillant tous en étroite collaboration. Les participants ont déjà collaboré à travers un groupe de travail pluridisciplinaire mis en place il y a 2 ans à la Sorbonne et à travers un tutorat conjoint de stages.
Impact : Sorbonne a lancé un centre IA en 2019 (SCAI) visant à promouvoir les activités fondamentales de l'IA et la recherche interdisciplinaire. L'environnement est l'un des 3 axes transversaux de SCAI. Le PI est co-responsable de cet axe. Au niveau national, le projet aborde 4 des 6 grandes orientations mises en évidence dans le rapport de 2018 du député Villani, qui a servi de base à la stratégie française en matière d’IA. L'environnement est l'un des 4 domaines prioritaires de cette stratégie. Le PI participe activement à l’enseignement et à la diffusion de l’apprentissage statistique à Sorbonne au sein des cursus de master en informatique et en mathématiques. Il sera responsable d'un nouveau programme joint de master -informatiques et mathématiques- en science des données qui débutera en 2019-2020. Il est impliqué dans l’enseignement continu et dans l'organisation de sessions spéciales. Le projet sera l’occasion d’élargir ces programmes de formation de manière à toucher un public pluridisciplinaire.
Coordination du projet
Patrick Gallinari (Laboratoire d'informatique de Paris 6)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
					
						
							LIP6 Laboratoire d'informatique de Paris 6
						
					
				
				
					Aide de l'ANR 597 240 euros
				
				Début et durée du projet scientifique :
					août 2020
						- 48 Mois