TSIA - Giga-modèles - Thématiques Spécifiques en Intelligence Artificielle (Giga-modèles pour le traitement automatique du langage naturel et des données multimodales) 2023

Generalized Earth Observation with Remote Sensing and Text – GEO ReSeT

GEO-ReSeT

Observation de la Terre généralisée avec la télédétection et le texte

Un nouveau paradigme pour l'extraction d'informations depuis les données de télédétection

Ces dernières années, les images de télédétection sont devenues plus accessibles que jamais grâce aux efforts importants déployés par les secteurs public et privé. Les satellites Sentinel lancés à partir de 2014 dans le cadre du programme Copernicus en sont un exemple emblématique. Cette mission fournit gratuitement une large couverture d'images, notamment des données radar à synthèse d'ouverture (SAR) et multispectrales, avec un temps de revisite court. Ces images contiennent des informations qui sont déjà utilisées pour suivre l'évolution du climat, améliorer la sécurité et comprendre et gérer l'environnement. L'exploitation des différents niveaux d'information fournis par différentes modalités est un domaine de recherche actif et utilisé dans la plupart des applications de télédétection. Au cours des dernières décennies, la méthode de traitement des données d'observation de la Terre s'est fortement orientée vers des méthodes basées sur l'apprentissage profond. Si cette évolution a conduit à une amélioration générale des performances, elle a également d'autres conséquences. Tout d'abord, la collecte de grands ensembles de données annotées et fiables est devenue plus importante. Comme la plupart des méthodes proposées sont basées sur l'apprentissage supervisé, leurs performances dépendent directement de la qualité des données d'entraînement. D'importants travaux ont donc été consacrés à la collecte de ces ensembles de données. Cependant, ces ensembles de données sont : - Spécifiques à une tâche : la collecte des étiquettes est effectuée pour une tâche spécifique, par exemple la cartographie de la couverture terrestre dans le cas de BigEarthNet. - spécifiques à un capteur : en télédétection, les algorithmes s'appuient généralement sur les particularités de capteurs bien calibrés. Bien que le développement de méthodes capables de s'adapter aux changements de capteurs soit une piste de travail intéressante, celle-ci a été peu explorée. Deuxièmement, le passage à des algorithmes supervisés a rendu l'extraction d'informations à partir de données de télédétection plus difficile qu'auparavant. En effet, il est désormais souvent nécessaire de trouver un ensemble de données d'apprentissage, de disposer des ressources nécessaires pour entrainer un modèle et enfin d'effectuer l'inférence pour utiliser des méthodes d'extraction d'informations de pointe. Ces deux conséquences sont encore plus importantes lorsqu'un utilisateur souhaite cibler une tâche spécifique. Dans ce cas, l'utilisateur doit collecter un nouvel ensemble de données, imaginer une nouvelle méthode et l'entraîner pour pouvoir atteindre son objectif. Cela limite considérablement l'utilisation des données de télédétection pour les nouveaux utilisateurs potentiels. L'objectif de ce projet est de fournir à la communauté d'observation de la Terre un modèle de base pouvant être utilisé pour n'importe quelle tâche et avec n'importe quelle modalité de données.

Collection de données et création du modèle fondation

Dans ce projet, nous proposons une méthode générique pour modéliser les interactions entre le texte et les données d'observation de la Terre. Tout d'abord, nous visons à étudier les représentations multimodales de différentes données d'observation de la Terre. Dans ce travail, nous commençons par développer des modèles pour des modalités individuelles (par exemple, l'imagerie multispectrale) qui sont capables d'utiliser des données provenant de capteurs ayant des caractéristiques différentes (par exemple, bandes spectrales, résolution spatiale, temps de revisite, etc. Pour ce faire, nous étudions l'utilisation d'intégrations auxiliaires qui vont au-delà de la position spatio-temporelle et capturent également d'autres caractéristiques des données, telles que la résolution spatiale et spectrale. Une deuxième partie est consacrée à la collecte de textes pertinents contenant une sémantique géographique. Nous proposons d'abord de collecter des textes explicitement codés géographiquement (par exemple, des pages Wikipédia sur une zone géographique), avant d'étudier des modèles capables d'extraire la composante géographique de n'importe quel texte donné. Enfin, nous nous appuyons sur les deux volets précédents pour construire un modèle multimodal capable de fonctionner avec n'importe quelle combinaison de modalités, y compris les données multispectrales, SAR, vectorielles et textuelles. Ce giga-modèle est appelé GEO-ReSeT. Nous espérons qu'un tel modèle multimodal pré-entraîné pourra servir de base à une multitude d'applications géospatiales et représente la principale contribution méthodologique de ce projet.

Résultats

Dans un premier temps, un travail sur la modélisation de l'information complémentaire des différentes modalités d'observation de la terre a été effectué. L'idée de cette modélisation est de faire une projection des informations issues de différentes modalités dans un espace latent commun, en prenant en compte le fait que pour chaque modalité, certaines dimensions de l'espace latent ne seront pas pertinentes. Ainsi, l'encodeur de chaque modalité prédit une valeur pour chaque dimension, mais aussi un score de confiance, sous la forme d'une variance. Au final, les latents issues de différentes modalités peuvent être fusionnés selon différentes fonctions (e.g. confiance maximum pour chaque dimension, moyenne pondérée par la confiance, ect...). Par la suite, nous avons exploré deux approches complémentaires pour le développement de modèles permettant, sans ré-entraînement, d'encoder de l'information venue de n'importe quel capteur de télédétection. Les difficultés sont nombreuses, puisqu'il faut prendre en compte les différences de résolutions, qu'elles soient spatiales, spectrales ou temporelles. La première approche, nommée Atomizer, cherche à modéliser chaque pixel comme une entrée indépendante du modèle. Cette modélisation est intéressante, car elle permet d'encoder précisément les spécificités de chaque capteur et prendre en compte des images de tailles et de formes différentes. En revanche, les approches couramment utilisées, basées sur les transformers, ont une compléxité quadratique en fonction du nombre d'entrées dûe à l'opération d'auto-attention. Ainsi, nous avons proposé d'utiliser une approche basée sur un Perceiver pour ce modèle. La seconde approche, nommée RAMEN, travaille elle aussi au niveau du pixel. En revanche, elle propose de travailler à une résolution spatiale décidée par l'utilisateur final. Les différentes images en entrée sont donc interpolées pour arriver à cette résolution souhaitée. L'intérêt de cette approche est donc de pouvoir choisir le compromis entre coût computationnel et précision spatiale. Enfin, un premier travail sur la construction d'une base de données cross-modale image/texte a été entamé

Perspectives

Nous continuons le travail sur les modèles de fondations basées sur l'information visuelle seule, afin d'améliorer les performances. En parallèle, nous continuons le travail de collecte des données textuelles, afin de pouvoir passer à l'entrainement d'un modèle vision langage.

Productions scientifiques et brevets

? de Turckheim, H. R., Lobry, S., Interdonato, R., & Marcos, D. (2025). Atomizer: Generalizing to new modalities by breaking satellite images down to a set of scalars. In BMVC 2025-36th British Machine Vision Conference. (Best presentation award)
? Houdré, N., Marcos, D., de Turckheim, H. R., Ienco, D., Wendling, L., Kurtz, C., & Lobry, S. (2025). RAMEN: Resolution-Adjustable Multimodal Encoder for Earth Observation. arXiv preprint arXiv:2512.05025.
? Houdré, N., Marcos, D., Ienco, D., Wendling, L., Kurtz, C., & Lobry, S. (2025). ProMM-RS: Exploring Probabilistic learning for Multi-Modal Remote Sensing Image Representations. In Proceedings of the Workshops of Winter Conference on Applications of Computer Vision (pp. 554-562).
? Ienco, D., & Dantas, C. F. (2024). DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning. In BMVC 2024-35th British Machine Vision Conference. (Best paper award)
? Dantas, C. F., Gaetano, R., & Ienco, D. (2024). Semi-supervised heterogeneous domain adaptation via disentanglement and pseudo-labelling. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases (pp. 440-456). Cham: Springer Nature Switzerland.

Résumé de soumission

Ce projet vise à développer un modèle fondation polyvalent pour les données géospatiales qui peut être utilisé pour un grand nombre de tâches et avec une variété de modalités de données. En utilisant la localisation sur la surface de la Terre comme lien commun entre les différentes modalités, le modèle sera capable d'incorporer une variété de sources, y compris l'imagerie de télédétection, les descriptions textuelles de lieux et les cartes. Grâce à des méthodes d'apprentissage auto-supervisé telles que l'apprentissage contrastif ou les autoencodeurs multimodaux, nous proposons d’exploiter les grandes quantités de données géo-spatiales non étiquetées provenant de ces différentes sources pour apprendre une meilleure représentation de tout emplacement géo-spatial et transmettre une représentation sémantique de l'information.
Le modèle de base proposé a le potentiel de révolutionner l'observation de la Terre en permettant d'apporter des solutions sans ou avec peu de réentrainement à des problèmes classiques tels que la cartographie de l'occupation et de l'utilisation des sols, la détection de cibles et la réponse à des questions visuelles. Il sera également utile pour un large éventail d'applications ayant une composante géospatiale, notamment la surveillance de l'environnement, la planification urbaine et l'agriculture.
En exploitant plusieurs modalités de données, le modèle de base fournira une compréhension plus complète et plus précise de la surface de la Terre, ce qui permettra de prendre des décisions et des mesures plus éclairées. Il sera particulièrement précieux pour les nouveaux utilisateurs potentiels dans des secteurs tels que le journalisme, les sciences sociales ou la surveillance de l'environnement, qui n'ont pas forcément les ressources ou l'expertise nécessaires pour collecter leurs propres ensembles de données d'entraînement et développer leurs propres méthodes, allant ainsi au-delà des données d'observation de la Terre ouvertes et démocratisant l'accès à l’information géo-spatiale.

Sylvain Lobry (LABORATOIRE INFORMATIQUE PARIS DESCARTES)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Inria Centre Inria d'Université Côte d'Azur
LIPADE LABORATOIRE INFORMATIQUE PARIS DESCARTES

Aide de l'ANR 593 269 euros
Début et durée du projet scientifique : septembre 2023 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.