Apprentissage Statistique pour les Séries Temporelles Environnementales – MATS
Apprentissage Statistique pour les Séries Temporelles Environnementales
Les récentes missions d'observation de la Terre ont tendance à viser des résolutions spatiales et temporelles de plus en plus fines. Dans ce projet, nous nous concentrons sur l'utilisation de telles données pour trois problématiques environnementales particulièrement cruciales : l'impact des pratiques agricoles sur l'environnement, la préservation des forêts et le suivi de la qualité de l'air.
Extraire de l’information dans les grandes masses de données environnementales
L’essor des données environnementales, issues de capteurs, satellites et modèles climatiques, soulève un défi majeur : comment extraire efficacement des informations exploitables malgré le manque d’annotations ? Ce projet vise à développer des méthodes de machine learning faiblement supervisées pour analyser ces données massives. L’enjeu est double : améliorer la précision des analyses environnementales tout en réduisant la dépendance aux annotations manuelles, souvent coûteuses et limitées. En explorant des approches comme l’apprentissage semi-supervisé et l’auto-apprentissage, ce projet ambitionne de fournir des outils robustes pour détecter des tendances climatiques, suivre la biodiversité ou encore anticiper des événements extrêmes. À terme, ces avancées pourraient bénéficier aussi bien aux chercheurs qu’aux décideurs en environnement, en optimisant la surveillance et la prise de décision face aux défis écologiques actuels.
Ce projet repose sur des méthodes avancées d’intelligence artificielle pour exploiter efficacement de grandes masses de données peu étiquetées. L’apprentissage profond permet d’identifier des structures et des motifs sans nécessiter une annotation exhaustive, rendant l’analyse plus flexible et automatisée. Les techniques d’alignement de séries temporelles facilitent la mise en correspondance de données collectées à différents moments ou sous des conditions variées, améliorant ainsi la cohérence des analyses. En parallèle, des outils issus du transport optimal sont utilisés pour relier différentes distributions de données, permettant d’intégrer et d’harmoniser des sources hétérogènes. En combinant ces approches, le projet vise à extraire des informations pertinentes et à améliorer la fiabilité des analyses, ouvrant la voie à des applications dans divers domaines nécessitant une exploitation efficace de données complexes.
Le projet a conduit au développement de tslearn, une bibliothèque dédiée à l’analyse des séries temporelles, offrant des outils comparables à ceux de scikit-learn. Une autre avancée majeure est la conception d’un algorithme d’adaptation de domaine spécialement conçu pour les séries temporelles, facilitant le transfert de connaissances entre jeux de données hétérogènes. Appliqué aux observations de la Terre, cet algorithme améliore la précision des analyses environnementales.
Le projet a apporté des contributions significatives aux approches faiblement supervisées, notamment en adaptation de domaine non supervisée, démontrant leur pertinence pour l’analyse des séries temporelles peu étiquetées. Toutefois, avec l’essor massif des données temporelles faiblement annotées, le besoin de telles méthodes reste crucial. Développer des approches encore plus robustes et généralisables est essentiel pour exploiter efficacement ces volumes de données croissants et répondre aux défis actuels en apprentissage automatique.
[0] Romain Tavenard et al.. Tslearn, A Machine Learning Toolkit for Time Series Data. In Journal of Machine Learning Research, vol. 21, pp. 1 - 6, 2020.
[1] Maël Guillemé, Simon Malinowski, Romain Tavenard, Xavier Renard. Localized Random Shapelets. In Proceedings of the International Workshop on Advanced Analysis and Learning on Temporal Data, Wurzburg, Germany, 2019.
[2] Yichang Wang, Rémi Emonet, Elisa Fromont, Simon Malinowski, Romain Tavenard. Adversarial Regularization for Explainable-by-Design Time Series Classification. In Proceedings of ICTAI 2020, Greece, 2020.
[3] David Guijo-Rubio, Pedro Gutiérrez, Romain Tavenard, Anthony Bagnall. A Hybrid Approach to Time Series Classification with Shapelets. In Proceedings of the Intelligent Data Engineering and Automated Learning -- IDEAL, Manchester, United Kingdom, 2019.
[6] Titouan Vayer, Laetitia Chapel, Rémi Flamary, Romain Tavenard, Nicolas Courty. Optimal Transport for structured data with application on graphs. In Proceedings of the ICML 2019 - 36th International Conference on Machine Learning, Long Beach, United States, 2019.
[7] Titouan Vayer, Rémi Flamary, Romain Tavenard, Laetitia Chapel, Nicolas Courty. Sliced Gromov-Wasserstein. In Proceedings of the NeurIPS 2019 - Thirty-third Conference on Neural Information Processing Systems, Vancouver, Canada, 2019.
[8] Titouan Vayer, Laetitia Chapel, Rémi Flamary, Romain Tavenard, Nicolas Courty. Fused Gromov-Wasserstein Distance for Structured Objects. In Algorithms, vol. 13, no 9, p. 212, 2020.
[9] Emilien Alvarez-Vanhard, Thomas Houet, Cendrine Mony, Lucie Lecoq, Thomas Corpetti. Can UAVs fill the gap between in situ surveys and satellites for habitat mapping? Remote Sensing of Environment, Elsevier, 2020, 243.
[10] Marc Rußwurm, Romain Tavenard, Sébastien Lefèvre, Marco Körner. Early Classification for Agricultural Monitoring from Satellite Time Series. In Proceedings of the AI for Social Good Workshop at ICML, Long Beach, United States, 2019.
Les récentes missions d'observation de la Terre ont tendance à viser des résolutions spatiales et temporelles de plus en plus fines (voir par exemple la mission SENTINEL-2 de l'ESA).
Les données issues de ces missions peuvent alors être utilisées pour des analyses à un niveau de granularité particulièrement fin dans un grand nombre de domaines d'applications.
Dans ce projet, nous nous concentrons sur trois problématiques environnementales particulièrement cruciales : l'impact des pratiques agricoles sur l'environnement, la préservation des forêts et le suivi de la qualité de l'air.
Partant des spécificités de ces cas d'applications, le projet MATS propose des approches novatrices dans le domaine de l'apprentissage dans les ensembles de séries temporelles, avec un intértêt tout particulier pour les méthodes permettant un passage à large échelle et qui peuvent opérer même lorsque la quantité d'annotations disponibles est relativement faible.
Plus précisément, le projet MATS vise à introduire de nouveaux paradigmes pour la classification de séries temporelles à large échelle, la modélisation spatio-temporelle et les approches faiblement supervisées pour les séries temporelles.
Les méthodes proposées couvriront un large spectre de problèmes d'apprentissage incluant l'adaptation de domaine, la classification non supervisée comme (semi-)supervisée, ou encore l'apprentissage de métrique pour lesquels une méthodologie dédiée fait défaut dans le domaine des series temporelles.
Les méthodes développées dans le cadre du projet seront mises à la disposition de la communauté scientifique ainsi que des utilisateurs finaux à travers une boîte à outils open-source qui permettra la dissémination des apports proposés dans le cadre de MATS vers un grand nombre de contextes applicatifs.
De plus, les applications considérées dans le projet seront utilisées pour démontrer les bénéfices offerts par les méthodes développées dans le cadre de MATS en termes d'analyse de séries temporelles.
Coordination du projet
Romain Tavenard (LITTORAL, ENVIRONNEMENT, TELEDETECTION, GEOMATIQUE)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LETG LITTORAL, ENVIRONNEMENT, TELEDETECTION, GEOMATIQUE
Aide de l'ANR 214 920 euros
Début et durée du projet scientifique :
- 48 Mois