Fouille de données pour l'évaluation et le suivi de la qualité hydrobiologique des cours d'eau – Fresqueau
Fouille de données pour l'évaluation et le suivi de la qualité hydrobiologique des cours d'eau
L'objectif de préserver ou restaurer le bon état des masses d’eau, imposé par la Directive Cadre Européenne sur l’eau (2000), requière de disposer d'outils opérationnels d'aide à l’interprétation des informations complexes concernant les cours d’eau et leur fonctionnement. Dans cette perspective, le projet FRESQUEAU développe de nouvelles méthodes pour étudier, comparer et exploiter l'ensemble des paramètres disponibles concernant l’état des cours d’eau et les pressions qu'ils subissent.
Des outils pour évaluer la qualité des cours d'eau
Le projet contribuera à répondre à deux enjeux spécifiques : (1) approfondir la connaissance des liaisons entre les différentes métriques permettant de caractériser la qualité des cours d’eau (indices biologiques, listes faunistiques ou floristiques, paramètres physicochimiques, etc.) et (2) identifier et modéliser les relations entre sources de pressions sur le milieu et qualité physico-chimique et biologique des cours d'eau. Pour cela, il a été nécessaire de constituer une base de données spécifiquement dédiée au projet à partir de bases de données publiques ou issues de programme de recherche. Les données requises sont relatives à la qualité de l’eau, l’hydrologie, les stations de mesures, etc. et permettent de caractériser l’environnement des cours d’eau. Toutes ces données se caractérisent par une grande hétérogénéité et une grande complexité, tant par leurs formes propres que par leurs structures spatiales et temporelles.
Pour exploiter ces données nous adoptons une démarche d'extraction de connaissances à partir de données. Travaillant d'abord à la structuration et à la mise en forme des données (tâche 1 du projet), nous proposons d'explorer et faire collaborer différentes approches de fouille de données spatio-temporelles (tâches 2 et 3), avant d'intégrer l'ensemble dans l'outil final (tâche 4). La démarche s'effectue dans un souci constant d'évaluation par les experts. De plus, la participation de deux bureaux d'études à ce projet nous garantit les moyens d'une validation «sur le terrain«. La plateforme finale inclura un entrepôt de données, une typologie de stations, et un ensemble de méthodes d'analyse et de fouille de données. La typologie des stations sera un moyen pour guider l'analyse et l'interprétation des relevés en station, en lien avec le fonctionnement hydrobiologique du cours d'eau et les pressions constatées, dans le but d'évaluer son état global.
La première étape du projet a permis de recenser un ensemble de données décrivant les cours d'eau et leur environnement pour le district Rhin-Meuse d'une part et le district Rhône-Méditerranée et Corse d'autre part. Des jeux de données plus fins (temporellement, spatialement et sémantiquement) ont également été acquis sur la bassin de la Saône et dans la plaine d'Alsace. L’intégration de ces données dans la base s’est appuyée sur la mise au point d'un modèle de données. Des éléments concernant la qualité de ces données ont également été recueillis (connaissances métier et mesures statistiques ou topologiques). Une base de données intégrée a été développée et mise à disposition des partenaires. Parallèlement nous avons construit deux entrepôts de données (cubes OLAP) permettant d'explorer les relevés physico-chimiques, d'une part, et les relevés biologiques, d'autre part, selon différentes dimensions thématiques, spatiales et temporelles. Dans un deuxième temps, un ensemble de questions opérationnelles a été établi, chaque question étant spécifiée par un jeu de données extrait de la base et par des méthodes de fouille à expérimenter. Plusieurs de ces méthodes ont été développées et appliquées : recherche de motifs dans des séquences temporelles, apprentissage relationnel supervisé, analyse de concepts formels sur des tables relationnelles, statistiques spatiales. Des combinaisons possibles de ces méthodes sont également étudiées. Les résultats sont en cours d'interprétation avec les différents hydrologues et hydrobiologistes du projet.
La dernière étape du projet porte sur le développement d'un outil opérationnel, incluant la base de données, les méthodes de fouille et des interfaces d'interrogation et de visualisation des données et des résultats de fouille. L'outil doit permettre (1) de repérer les anomalies et défauts des données (2) d'aider à la mise en relation et l’interprétation des données sur un cours d'eau (3) de tester et appliquer des méthodes de diagnostic de l’état et de l’évolution d’un cours d’eau.
Lalande N. Impacts multi-échelles de l'occupation du sol sur l'état écologique des cours d'eau: élaboration et test d'un cadre d'analyse et de modélisation. Thèse AgroParisTech, 2013.
Fabrègue M., A. Braud, S. Bringay, F. Le Ber, M. Teisseire. OrderSpan: Mining Closed Partially Ordered Patterns. The Twelfth International Symposium on Intelligent Data Analysis (IDA 2013), London, United Kingdom, pp. 186-197, 2013.
Dolques X., F. Le Ber, M. Huchard. AOC-posets: a scalable alternative to Concept Lattices for Relational Concept Analysis. CLA 2013: 10th International Conference on Concept Lattices and Their Applications, La Rochelle, France, pp. 129-140, 2013.
Dolques X., F. Le Ber, M. Huchard, C. Nebut. Analyse Relationnelle de Concepts pour l'exploration de données relationnelles. EGC'2013: 13e Conférence Francophone sur l'Extraction et la Gestion des Connaissances, Toulouse, France. Hermann-Éditions, pp. 121-132, Revue des Nouvelles Technologies de l'Information, 2013.
Wiederkehr J., M. Fabrègue, B. Fontan, C. Grac, F. Labat, F. Le Ber, M. Trémolières. Multi index assessment of streams and associated uncertainties: application to macrophytes. 8th Symposium for European Freshwater Sciences, Münster, Germany, 2013.
Lalande N., L. Berrahou, G. Molla, et al. Feedbacks on data collection, data modeling and data integration of large datasets: application to Rhine- Meuse and Rhone-Mediterranean districts (France). 8th Symposium for European Freshwater Sciences, Münster, Germany, 2013.
Fabrègue M., A. Braud, S. Bringay, F. Le Ber, M. Teisseire. Including spatial relations and scales within sequential pattern extraction. DS'2012: 15th International Conference on Discovery Science, Lyon, France. LNAI 7569, pp. 209-223, 2012.
L'objectif de préserver ou restaurer le bon état des masses d’eau, imposé par la Directive Cadre Européenne sur l’eau (DCE, 2000), met en exergue la nécessité de disposer d'outils opérationnels pour l’interprétation des informations complexes concernant le fonctionnement des cours d’eau, ainsi que pour évaluation des programmes d’actions engagés. Dans cette perspective, le projet FRESQUEAU tend à développer de nouvelles méthodes pour étudier, comparer et exploiter l'ensemble des paramètres disponibles concernant l’état des cours d’eau et les mesures prises. Les méthodes développées seront intégrées dans une plateforme open souce d'aide à l'interprétation du fonctionnement des cours d’eau. L’originalité de l’approche proposée est de mettre en relation des données structurelles et fonctionnelles via la mobilisation d'un ensemble de méthodes novatrices, et de mettre ainsi en place un véritable processus d’aide à la découverte de connaissances. Différentes approches d’extraction de connaissances seront testées et combinées. Pour atteindre ce but, le consortium regroupe un ensemble d'experts en structuration et fouille de données, (dans les quatre UMR impliquées, LHyGeS, TETIS, LSIIT et LIRMM), et d'experts en hydroécologie (LHyGeS, TETIS et bureaux d'études partenaires du projet, Aquascop et Aquabio).
Plus précisément, le projet contribuera à répondre à deux enjeux spécifiques : (1) approfondir la connaissance du fonctionnement des cours d’eau par l’analyse des taxons à la base des indices biologiques (2) relier les sources de pressions sur le milieu à la qualité physico-chimique et biologique des cours d’eau. Le projet s'appuie pour cela sur les données physico-chimiques et biologiques produites par les Agences de l'Eau et l'ONEMA, et complétées par les mesures fines opérées par le LHyGeS. Sont également disponibles des données décrivant le réseau hydrographique, l’occupation du sol, les stations d’épuration à l'échelle nationale, complétées localement par des enquêtes sur les activités agricoles et les actions de restauration, et par des cartographies fines dans les espaces rivulaires, produites par TETIS. Toutes ces données se caractérisent par une grande hétérogénéité et une grande complexité, tant par leur forme propre que par leur structure spatiale et temporelle.
Pour exploiter ces données nous adopterons une démarche d'extraction de connaissances. Travaillant d'abord à la structuration et à la mise en forme des données, nous proposons d’explorer et faire collaborer différentes approches de fouille de données dans un souci constant d’évaluation par les experts. De plus, la participation de deux bureaux d'études à ce projet nous garantit les moyens d'une validation « sur le terrain ». La plateforme finale inclura un entrepôt de données, ainsi qu'une typologie de stations, et un ensemble de méthodes d'analyse et de fouille de données. La typologie des stations sera un moyen pour guider l'analyse et l'interprétation des relevés en station, en lien avec le fonctionnement hydrobiologique du cours d'eau et les pressions constatées, dans le but d'évaluer son état global. Cinq étapes sont planifiées pour évaluer et combiner ces techniques en fonction des différentes stratégies d’exploration des données adoptées jusqu’à une exploration de la base de données dans sa totalité.
L'enjeu est donc à la fois applicatif et théorique. Il s'agit (1) de développer un outil permettant d'évaluer le fonctionnement global d'un cours d'eau sur la base des différents compartiments de l'écosystème ; (2) de progresser dans les méthodes d'extraction de connaissances à partir de gros volumes de données hétérogènes, temporelles et spatiales. Ces méthodes à visée générique seront testées et validées dans ce cadre applicatif particulièrement intéressant. Le consortium mis en place regroupe les compétences nécessaires à la prise en charge des verrous sous-jacents et donc à la réussite de ce projet.
Coordination du projet
Florence Le Ber (ECOLE NATIONALE DU GENIE DE L'EAU ET DE L'ENVIRONNEMENT DE STRASBOURG) – florence.leber@engees.unistra.fr
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
AQUABIO AQUABIO
LSIIT UNIVERSITE DE STRASBOURG
TETIS CEMAGREF - CENTRE DE MONTPELLIER
UM2-LIRMM UNIVERSITE DE MONTPELLIER II [SCIENCES TECHNIQUES DU LANGUEDOC]
AQUASCOP AQUASCOP BIOLOGIE
LHYGES ECOLE NATIONALE DU GENIE DE L'EAU ET DE L'ENVIRONNEMENT DE STRASBOURG
Aide de l'ANR 813 493 euros
Début et durée du projet scientifique :
septembre 2011
- 39 Mois