Des Données aux Connaissances en Agronomie et Biodiversité – D2KAB
Des Données aux Connaissances en Agronomie et Biodiversité (D2KAB)
D2KAB met en place les processus permettant d’extraire et de formaliser des connaissances (data to knowledge) – sémantiquement riches, interopérables, ouvertes – à partir des données d’agronomie/agriculture et de biodiversité/écologie. Le projet étudie également les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances dans différents scénarios en agriculture ou biodiversité.
Usage des technologies du Web sémantique et des données liées pour “transformer” en connaissances exploitables et réutilisables les données des grands défis de l’agronomie et la biodiversité.
L'agronomie et la biodiversité doivent répondre à plusieurs grands défis sociétaux, économiques et environnementaux. Cependant, les données dans ces domaines sont produites en si grande quantité et si vite qu'elles remettent en question notre capacité à les transformer en connaissances exploitables et réutilisables.<br /><br />Nous adoptons dans D2KAB une approche interdisciplinaire de la science des données et de la sémantique pour fournir des moyens – ontologies, graphes de connaissances – pour produire et exploiter des données FAIR (Facile à trouver, Accessible, Interopérable, et Réutilisable). Pour ce faire, nous développons de nouvelles méthodes et algorithmes pour répondre aux spécificités de nos domaines d'intérêt, mais nous nous appuyons également sur les outils et méthodes existants dans le domaine du Web sémantique.<br /><br />D2KAB réunit un consortium pluridisciplinaire (et international) de trois laboratoires d’informatique (UM-LIRMM, CNRS-I3S, STANFORD-BMIR), quatre laboratoires d’informatique appliquée en agronomie ou agriculture (INRAE-URGI, INRAE-MaIAGE, INRAE-IATE, INRAE-TSCF), deux en écologie et écosystèmes (CNRS-CEFE, INRAE-URFM), le service d’INRAE d’appui à l’information scientifique et technique et à la science ouverte (INRAE-DipSO) et une association du monde agricole (ACTA). L’IRD est également collaborateur, ainsi que l’entreprise Elzeard. L'expertise du consortium en informatique s'étend des ontologies et métadonnées, aux données liées, aux graphes de connaissances, à l’alignement d’ontologies, au raisonnement et l’extraction de connaissances, au traitement du langage naturel ainsi qu’à la bioinformatique. Nos scénarios d’applications sont relatifs aux emballages alimentaires, à l’intégration de données de phénotypage du blé, l’exploitation sémantique des Bulletins de Santé du Végétal, la gestion des données des écosystèmes et l’analyse des relations traits/environnement des plantes.
Le projet est structuré en trois work-packages de recherche et développement en informatique et deux work-packages de scénarios. Le WP1 se concentre sur les ontologies/vocabulaires et le développement d’AgroPortal pour en faire une plateforme de référence internationale pour le partage et les services pour les ressources sémantiques en agronomie/agriculture/alimentation. Le WP2 se focalise sur le problème majeur de l'alignement d’ontologies et de la gestion des interconnexions entre les ressources sémantiques en adoptant une approche dirigée par les cas d’utilisations du projet. Le WP3, partant des données hétérogènes fournies par les scénarios, développe les méthodes et déploie les moyens nécessaires à la construction d'un graphe de connaissances distribué et fédéré pour l’agronomie et biodiversité et à son exploitation par des modes innovants de visualisation, navigation et recherche.
Le WP4 comprend quatre scénarios en agronomie/agriculture. Par exemple, un premier développement concerne la conception d’un système d'aide à la décision basé sur les ontologies pour soit formuler un emballage biodégradable composite bio-sourcé, soit sélectionner l'emballage alimentaire le plus approprié à un usage. Un autre exemple concerne le développement d’un navigateur sémantique augmenté pour les Bulletins de Santé du Végétal (avec un focus sur les céréales, la vigne (en partenariat avec l’IFV), le maraîchage (en partenariat avec Elzeard)) capable de rechercher un ensemble de bulletins tout en affichant des sources d’information supplémentaires (archive météo, …) . Également, nous participons au développement d’une base de connaissances scientifiques unique pour les phénotypes du blé qui est utilisé par le système d’information international sur le blé WheatIS. Le WP5 développe des ressources sémantiques permettant l'annotation des données pour l’expérimentation sur les écosystèmes d’une part et pour les observations en biogéographie fonctionnelle d’autre part. Un exemple combinant des sources de données relatives à l’écologie des communautés, aux traits des plantes et aux facteurs de l’environnement est en cours pour comprendre les effets des changements climatiques sur la végétation (en particulier l’olivier) du Bassin Méditerranéen.
* Développement de nouvelles fonctionnalités (gestion de SKOS, des instances, etc.) et maintenance du portail d’ontologies et de resources sémantique AgroPortal : agroportal.lirmm.fr
* Hébergement et gestion des métadonnées pour 145 ressources sémantiques.
* Conception et développement d’une méthode de FAIRness assessment, appelée O’FAIRe pour les ressources sémantiques : github.com/agroportal/fairness
* Généralisation de nos travaux sur les portails d’ontologies dans le cadre de l’OntoPortal Alliance : ontoportal.org
* Développement (et/ou mise à jour) d’une douzaine de ressources sémantiques (ontologies, thésaurus) en lien avec nos scénarios et disponible sur AgroPortal : CROPUSAGE, PPDO, ANAEETHES, TAXREF, INRAETHES, E-PHY, PO2, C3PO, etc.
* Développement de modèles de représentation des connaissances et production de multiples graphes de connaissances pour les données de nos scénarios : annotations de bulletins d’alertes agricoles, données météos, données d’observation, annotations de corpus scientifiques, données écosystème, données d’itinéraires de fabrication d’emballages biodégradables bio-sourcés, etc.
* Développement d’un index des graphes de connaissances du projet et de méthodes de requête fédérées sur les SPARQL endpoint distribués du projet.
* Développement de méthodes de visualisation des graphes de connaissances du projet.
* Thèse sur le liage de données dans le cadre des données de AgroLD : agrold.southgreen.fr/agrold/
* Thèse sur l'hybridation des méthodes symbolique/sémantique et d’apprentissage automatiques dans les graphes de connaissances avec la PME Elzeard.
* Analyse des alignements entre les ontologies du domaine et production d’alignements richement documentés (au format SSSOM) entre plusieurs ressources sémantiques en lien avec nos scénarios.
* Développement de pipelines intégrés de méthodes d’extraction de connaissances à partir de données textuelles et d’ensembles d'annotations e.g., pour un corpus de Bulletins de Santé du Végétal (culture, stade phénologique, météo) ou pour les corpus scientifiques sur le blé tendre (variétés, gènes, traits et phénotypes.
* Alignement de ressources sémantiques des scénarios (espèces et usages (BSV), traits et phénotypes du blé) pour l’intégration de données hétérogènes.
* Extension de la plateforme @Web pour la gestion de contraintes SHACL sur les données.
* Acquisition, curation et consolidation d’un corpus de données de relation trait-environnement pour le bassin méditerranéen.
(à venir)
D2KAB a produit une trentaine de publications scientifiques, une douzaine de ressources sémantiques, plusieurs jeux de données en RDF ou autres formats standards et de nombreux composants ou nouveaux logiciels en open source. Plus de détails sur www.d2kab.org
D2KAB s’implique et s'associe à de multiples actions et événements de dissémination/communication/formation où nous utilisons nos scénarios comme démonstrateurs du potentiel des technologies sémantiques en agronomie et biodiversité.
L'agronomie et la biodiversité doivent répondre à plusieurs grands défis sociétaux, économiques et environnementaux. Cependant, les données sont produites en si grande quantité et si vite qu'elles remettent en question notre capacité à les transformer en connaissances et permettre, par exemple, l’agriculture translationnelle, c.-à-d. le transfert rapide et efficace des résultats de recherche agronomique vers le monde agricole.
D2KAB ambitionne de mettre en place les processus permettant de transformer les données d’agronomie et de biodiversité en connaissances – sémantiquement riches, interopérables, ouvertes – ainsi que les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances. Pour ce faire, nous développerons de nouvelles approches et algorithmes pour répondre aux spécificités de nos domaines d'intérêt, mais nous nous appuierons également sur les outils et méthodes existants.
D2KAB réunit un consortium pluridisciplinaire (et international) de trois laboratoires d’informatique (UM-LIRMM, CNRS-I3S, STANFORD-BMIR), quatre laboratoires d’informatique appliquée en agronomie ou agriculture (INRA-URGI, INRA-MaIAGE, INRA-IATE, IRSTEA-TSCF), deux en écologie et ecosystemes (CNRS-CEFE, INRA-URFM), l’unité INRA d’appui à information scientifique et technique (INRA-DIST) et une association du monde agricole (ACTA). L'expertise du consortium en informatique s'étend des ontologies et métadonnées, au Web sémantique, aux données liées, à l’alignement d’ontologies, au raisonnement et l’extraction de connaissances, au traitement du langage naturel ainsi qu’à la bioinformatique.
Le projet est structuré en trois work-packages de recherche et développement en informatique et deux work-packages de scénarios. Le WP1 se concentrera sur les ontologies/vocabulaires et transformera le prototype AgroPortal en plateforme de référence répondant aux besoins de la communauté en proposant des ressources et des services de très haute qualité: conformité au format SKOS, recherche sémantique de données liées, annotation de texte, interopérabilité avec d’autres portails sémantique. Le WP2 se concentrera sur le problème majeur de l'alignement d’ontologies et développera de nouvelles fonctionnalités et algorithmes dans AgroPortal en utilisant des méthodes à base de background knowledge validées en ag & biodiv. Partant des données hétérogènes fournies par les scénarios, le WP3 déploiera les méthodes et moyens nécessaires à la construction d'un graphe distribué de connaissances ag & biodiv, et à son exploitation via des modes innovants de visualisation, navigation et recherche.
Le WP4 comprend quatre scénarios de recherche interdisciplinaire d'agriculture translationnelle. Par exemple, un système d'aide à la décision basé sur les ontologies pour sélectionner l'emballage alimentaire le plus approprié ou un lecteur sémantique augmenté pour les Bulletins de Santé du Végétal. Nous fournirons une base de connaissances scientifiques unique pour les phénotypes du blé et offrirons la première ressource de données agricoles renforcée par les données ouvertes et liées. Le WP5 développera des ressources sémantiques permettant l'annotation des données pour l’expérimentation sur les écosystèmes d’une part et pour les observations en biogéographie fonctionnelle d’autre part. Un exemple combinant des sources de données relatives à l’écologie des communautés, aux traits des plantes et aux facteurs de l’environnement sera réalisé pour comprendre les effets des changements climatiques sur la végétation du Bassin Méditerranéen.
Chacun des scénarios guidant le projet aura un impact significatif et produira des résultats concrets pour les communautés scientifiques ag & biodiv et les acteurs socio-économiques de l'agriculture. Nous avons prévu de multiples actions et événements de dissémination où nous utiliserons nos scénarios comme démonstrateurs du potentiel des technologies sémantiques en agronomie et biodiversité.
Coordination du projet
Clement Jonquet (Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
INRA-URFM Ecologie des Forêts Méditerranéennes
UM-LIRMM Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier
STANFORD-BMIR Stanford University / Stanford Center for Biomedical Informatics Research
CNRS-I3S Laboratoire informatique, signaux systèmes de Sophia Antipolis
IRSTEA-TSCF Technologies et Systèmes d'Information pour les Agrosystèmes
CNRS-CEFE Centre d'Ecologie Fonctionnelle et Evolutive
ACTA ASSOCIATION COORDINATION TECHNIQUE AGRICOLE
INRA-DIST Délégation Information Scientifique et Technique
INRA-MaIAGE Mathématiques et Informatique Appliquée du Génome à l'Environnement Unité de recherche
INRA-URGI Unité de Recherche Génomique-Info
INRA-IATE Ingénierie des Agropolymères et Technologies Emergentes
Aide de l'ANR 951 176 euros
Début et durée du projet scientifique :
mai 2019
- 48 Mois