Des Données aux Connaissances en Agronomie et Biodiversité – D2KAB
Des Données aux Connaissances en Agronomie et Biodiversité (D2KAB)
D2KAB met en place les processus permettant d’extraire et de formaliser des connaissances (data to knowledge) – sémantiquement riches, interopérables, ouvertes – à partir des données d’agronomie/agriculture et de biodiversité/écologie. Le projet étudie également les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances dans différents scénarios en agriculture ou biodiversité.
Usage des technologies du Web sémantique et des données liées pour “transformer” en connaissances exploitables et réutilisables les données des grands défis de l’agronomie et la biodiversité.
L'agronomie et la biodiversité font face à plusieurs grands défis sociétaux, économiques et environnementaux. Cependant, les données dans ces domaines sont produites en si grande quantité et si vite qu'elles remettent en question notre capacité à les transformer en connaissances exploitables et réutilisables. Nous adoptons dans D2KAB une approche interdisciplinaire de la science des données et de la sémantique pour fournir des moyens – ontologies, graphes de connaissances – pour produire et exploiter des données FAIR (Facile à trouver, Accessible, Interopérable, et Réutilisable). Pour ce faire, nous développons de nouvelles méthodes et algorithmes pour répondre aux spécificités de nos domaines d'intérêt, tout en nous appuyant sur les outils et standards existants dans le domaine du Web sémantique. D2KAB réunit un consortium pluridisciplinaire (et international) de trois laboratoires d’informatique (UM-LIRMM, CNRS-I3S, STANFORD-BMIR), quatre laboratoires d’informatique appliquée en agronomie ou agriculture (INRAE-URGI, INRAE-MaIAGE, INRAE-IATE, INRAE-TSCF), deux en écologie et écosystèmes (CNRS-CEFE, INRAE-URFM), la direction d’INRAE d’appui à la science ouverte (INRAE-DipSO) et une association du monde agricole (ACTA). L’IRD est également collaborateur, ainsi que l’entreprise Elzeard et l’Institut Francais de la Vigne et du Vin (IFV). L'expertise du consortium en informatique s'étend des ontologies et métadonnées, aux données liées, aux graphes de connaissances, à l’alignement d’ontologies, au raisonnement et l’extraction de connaissances, au traitement du langage naturel ainsi qu’à la bioinformatique. Nos scénarios d’application sont relatifs aux emballages alimentaires, à l’intégration de données de phénotypage du blé, l’exploitation sémantique des Bulletins de Santé du Végétal, la gestion des données des écosystèmes et l’analyse des relations traits/environnement chez les plantes.
Le projet est structuré en trois work-packages de recherche et développement en informatique et deux work-packages de scénarios.
Le WP1 se concentre sur les ontologies/vocabulaires et le développement d’AgroPortal pour en faire une plateforme de référence internationale pour le partage et les services pour les ressources sémantiques en agronomie/agriculture/alimentation. Nous utilisons également les méthodes du traitement automatique de la langue.
Le WP2 se focalise sur le problème majeur de l'alignement d’ontologies et de la gestion des interconnexions entre les ressources sémantiques en adoptant une approche dirigée par les cas d’utilisations du projet.
Le WP3, partant des données hétérogènes fournies par les scénarios, développe les méthodes et déploie les moyens nécessaires à la construction de graphes de connaissances distribués et fédérés pour l’agronomie et biodiversité et à leur exploitation par des modes innovants de visualisation, navigation et recherche.
Le WP4 comprend quatre scénarios en agronomie/agriculture. Par exemple, un premier développement concerne la conception d’un système d'aide à la décision basé sur les ontologies pour soit formuler un emballage biodégradable composite bio-sourcé, soit sélectionner l'emballage alimentaire le plus approprié à un usage. Un autre exemple concerne l'extraction de connaissances à partir d'un corpus de Bulletins de Santé du Végétal avec un focus sur les céréales, la vigne (en partenariat avec l’IFV), le maraîchage (en partenariat avec Elzeard). Également, nous participons au développement d’une base de connaissances scientifiques unique pour les phénotypes du blé qui est utilisé par le système d’information international sur le blé WheatIS.
Le WP5 développe des ressources sémantiques permettant l'annotation des données pour l’expérimentation sur les écosystèmes d’une part et pour les observations en biogéographie fonctionnelle d’autre part. Un exemple combinant des sources de données relatives à la répartition géographique des variétés aux traits phénotypiques des arbres, et aux facteurs de l’environnement est en cours pour comprendre les effets des changements climatiques sur les performances de l’olivier dans le Bassin Méditerranéen.
Le projet D2KAB a permis d’importantes avancées pour transformer les données en connaissances dans les domaines de l’agronomie et de la biodiversité. La plateforme AgroPortal, au cœur de cette initiative, a été enrichie par de nouvelles fonctionnalités (gestion de SKOS, des instances, multilinguisme, visualisations, etc.), tout en maintenant un catalogue de plus de 200 ressources sémantiques, dont plusieurs développées spécifiquement pour le projet: PPDO, ANAEEONTO, TOPROOT ou THESOLIVE. Ces efforts ont été soutenus par une méthode innovante d’évaluation de la FAIRness des ressources sémantiques, O’FAIRe, et la généralisation des résultats au sein de l’OntoPortal Alliance, contribuant ainsi à des challenges similaires dans d’autres communautés scientifiques. Des ressources existantes comme le thesaurus French Crop Usage (CROPUSAGE) ou le Thesaurus ANAEE ont été enrichi pendant D2KAB et ont amélioré leur niveau de FAIRness. Le projet a également expérimenté le modèle SSSOM pour représenter les alignements entre ontologies et participé aux discussions pour le faire évoluer.
D2KAB a également produit des modèles de représentation des connaissances et de multiples graphes RDF, intégrant des données issues des scénarios du projet : bulletins de santé du végétal, observations météorologiques, données d’écosystèmes, annotations scientifiques sur le blé (gènes, traits, phénotypes) et données d’itinéraires agro-industriels. Une fédération expérimentale de ces graphes a été mise en œuvre via des points d'accès SPARQL distribués, permettant des requêtes complexes sur plusieurs sources. Ces graphes et leurs données interconnectées sont mis à disposition des communautés scientifiques offrant une interopérabilité et une exploitation enrichie des données pour des applications en agronomie et biodiversité.
Le projet a aussi investi dans le traitement automatique de la langue pour structurer et extraire des connaissances à partir de corpus textuels. Des pipelines intégrés ont été développés pour annoter les Bulletins de Santé du Végétal (espèces, stades phénologiques, météo) et un corpus scientifique sur le blé tendre (variétés, gènes, traits). En parallèle, des travaux sur le liage de données dans AgroLD et l’hybridation entre méthodes sémantiques et apprentissage automatique (avec Elzeard) ont ouvert de nouvelles perspectives pour exploiter les graphes de connaissances.
Ces résultats démontrent l'impact direct de D2KAB pour la structuration des données, leur intégration et leur mise à disposition sous forme de connaissances actionnables et interopérables, contribuant à la recherche agronomique, environnementale et à la transition numérique des sciences du vivant.
Le projet D2KAB a établi des bases solides pour la gestion, l’intégration et l’exploitation des données dans les domaines de l’agronomie et de la biodiversité. Plusieurs axes de développement émergent pour capitaliser sur ces acquis. La plateforme AgroPortal, moteur central du projet, continuera d’évoluer avec des fonctionnalités renforcées pour la curation d’ontologies, l’harmonisation des métadonnées et l’alignement sémantique. Ces avancées, initiées dans D2KAB, sont déjà et continueront d’être transférées à d'autres communautés, notamment via le projet EOSC FAIR-IMPACT. De plus, l'extension de la plateforme @Web, utilisée dans l'ANR EVAGRAIN, démontre l’intégration concrète des outils de D2KAB, par exemple pour le contrôle qualité de données sur le blé et le développement de modèles prédictifs agroalimentaires.
Les graphes de connaissances RDF développés dans D2KAB illustrent l’importance de structurer et d’intégrer des données complexes. Ils ouvrent la voie à des solutions telles que l’indexation, la visualisation interactive et la requête fédérée sur des points SPARQL distribués. Si AgroPortal est désormais la référence pour la publication des ontologies / resources sémantiques en agriculture, il reste à définir des solutions pérennes pour le stockage et le partage des graphes de connaissances sur le long terme.
En matière d’interopérabilité, l'évolution du modèle d’alignement d’AgroPortal/OntoPortal vers une compatibilité totale avec SSSOM constitue un axe majeur. Cela inclut le développement de services pour partager et documenter ces alignements, tout en les rendant FAIR grâce à des métadonnées riches (provenance, justifications) et interopérables avec d’autres entrepôts. Ce travail s’appuie sur des initiatives comme le groupe RDA « FAIR mappings » et les projets européens EOSC FAIR-IMPACT et FAIRCORE4EOSC.
Un enjeu clé sera l’intégration de workflows de traitement automatique de la langue au sein d'AgroPortal, permettant de coupler des outils comme AlvisNLP avec les services de sémantisation. Si le projet n’a pas revisité certains outils historiques, comme l’Annotator d’AgroPortal, à la lumière des avancées récentes en traitement automatique de la langue (e.g., grands modèles de langues), ces technologies offrent des perspectives prometteuses pour améliorer l’automatisation et la précision des annotations.
Les applications concrètes du projet, comme la transformation des données des bulletins de santé du végétal ou l’annotation des données expérimentales sur le blé, démontrent le potentiel de D2KAB à convertir les données en connaissances. Ces résultats serviront de base à d'autres domaines, comme l’identification de problèmes dans AgroLD, utilisé dans les projets DACE-DL et DIG-AI.
Enfin, D2KAB contribue à la science ouverte via la promotion des données et ressources sémantiques FAIR, et participe à la montée en compétence des chercheurs sur ces sujets grâce à des formations sur les outils et standards développés.
D2KAB a produit une trentaine de publications scientifiques, une douzaine de ressources sémantiques, plusieurs jeux de données en RDF ou autres formats standards et de nombreux composants ou nouveaux logiciels en open source. Plus de détails sur www.d2kab.org
D2KAB s’implique et s'associe à de multiples actions et événements de dissémination/communication/formation où nous utilisons nos scénarios comme démonstrateurs du potentiel des technologies sémantiques en agronomie et biodiversité.
L'agronomie et la biodiversité doivent répondre à plusieurs grands défis sociétaux, économiques et environnementaux. Cependant, les données sont produites en si grande quantité et si vite qu'elles remettent en question notre capacité à les transformer en connaissances et permettre, par exemple, l’agriculture translationnelle, c.-à-d. le transfert rapide et efficace des résultats de recherche agronomique vers le monde agricole.
D2KAB ambitionne de mettre en place les processus permettant de transformer les données d’agronomie et de biodiversité en connaissances – sémantiquement riches, interopérables, ouvertes – ainsi que les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances. Pour ce faire, nous développerons de nouvelles approches et algorithmes pour répondre aux spécificités de nos domaines d'intérêt, mais nous nous appuierons également sur les outils et méthodes existants.
D2KAB réunit un consortium pluridisciplinaire (et international) de trois laboratoires d’informatique (UM-LIRMM, CNRS-I3S, STANFORD-BMIR), quatre laboratoires d’informatique appliquée en agronomie ou agriculture (INRA-URGI, INRA-MaIAGE, INRA-IATE, IRSTEA-TSCF), deux en écologie et ecosystemes (CNRS-CEFE, INRA-URFM), l’unité INRA d’appui à information scientifique et technique (INRA-DIST) et une association du monde agricole (ACTA). L'expertise du consortium en informatique s'étend des ontologies et métadonnées, au Web sémantique, aux données liées, à l’alignement d’ontologies, au raisonnement et l’extraction de connaissances, au traitement du langage naturel ainsi qu’à la bioinformatique.
Le projet est structuré en trois work-packages de recherche et développement en informatique et deux work-packages de scénarios. Le WP1 se concentrera sur les ontologies/vocabulaires et transformera le prototype AgroPortal en plateforme de référence répondant aux besoins de la communauté en proposant des ressources et des services de très haute qualité: conformité au format SKOS, recherche sémantique de données liées, annotation de texte, interopérabilité avec d’autres portails sémantique. Le WP2 se concentrera sur le problème majeur de l'alignement d’ontologies et développera de nouvelles fonctionnalités et algorithmes dans AgroPortal en utilisant des méthodes à base de background knowledge validées en ag & biodiv. Partant des données hétérogènes fournies par les scénarios, le WP3 déploiera les méthodes et moyens nécessaires à la construction d'un graphe distribué de connaissances ag & biodiv, et à son exploitation via des modes innovants de visualisation, navigation et recherche.
Le WP4 comprend quatre scénarios de recherche interdisciplinaire d'agriculture translationnelle. Par exemple, un système d'aide à la décision basé sur les ontologies pour sélectionner l'emballage alimentaire le plus approprié ou un lecteur sémantique augmenté pour les Bulletins de Santé du Végétal. Nous fournirons une base de connaissances scientifiques unique pour les phénotypes du blé et offrirons la première ressource de données agricoles renforcée par les données ouvertes et liées. Le WP5 développera des ressources sémantiques permettant l'annotation des données pour l’expérimentation sur les écosystèmes d’une part et pour les observations en biogéographie fonctionnelle d’autre part. Un exemple combinant des sources de données relatives à l’écologie des communautés, aux traits des plantes et aux facteurs de l’environnement sera réalisé pour comprendre les effets des changements climatiques sur la végétation du Bassin Méditerranéen.
Chacun des scénarios guidant le projet aura un impact significatif et produira des résultats concrets pour les communautés scientifiques ag & biodiv et les acteurs socio-économiques de l'agriculture. Nous avons prévu de multiples actions et événements de dissémination où nous utiliserons nos scénarios comme démonstrateurs du potentiel des technologies sémantiques en agronomie et biodiversité.
Coordination du projet
Clement Jonquet (Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
INRA-URFM Ecologie des Forêts Méditerranéennes
UM-LIRMM Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier
STANFORD-BMIR Stanford University / Stanford Center for Biomedical Informatics Research
CNRS-I3S Laboratoire informatique, signaux systèmes de Sophia Antipolis
IRSTEA-TSCF Technologies et Systèmes d'Information pour les Agrosystèmes
CNRS-CEFE Centre d'Ecologie Fonctionnelle et Evolutive
ACTA ASSOCIATION COORDINATION TECHNIQUE AGRICOLE
INRA-DIST Délégation Information Scientifique et Technique
INRA-MaIAGE Mathématiques et Informatique Appliquée du Génome à l'Environnement Unité de recherche
INRA-URGI Unité de Recherche Génomique-Info
INRA-IATE Ingénierie des Agropolymères et Technologies Emergentes
Aide de l'ANR 971 180 euros
Début et durée du projet scientifique :
mai 2019
- 48 Mois