Projet Semantics4Fair - Semantics for Fair, usage-oriented semantic enrichment of open data

3 questions sur ce projet lauréat de l’appel Flash science ouverte

En quoi l’application des principes de la science ouverte, à propos des données de la recherche, constitue un enjeu dans votre domaine, discipline ou spécialité ?

Pour MétéoFrance, les enjeux de la science ouverte sont considérables. En effet, les sources de données météo se multiplient sur le web : portails gérés par les GAFA, sites de données déposées par des utilisateurs (crowdfunding) ou collectées à partir d’usages (i.e. stations météo personnelles), sites de passionnés de météo pour des usages ciblés (navigateurs, etc.). Alors que ces données sont de moindre qualité, les scientifiques les utilisent car ils ne trouvent pas « facilement » leurs équivalents auprès de MétéoFrance qui les propose pourtant en ligne. Le problème découle de la formulation des recherches, et de la difficulté à repérer les données. A terme, MétéoFrance pourrait perdre sa position de leader, et les scientifiques manquer des données riches, précises et de qualité.

Quels sont les objectifs du projet et les approches envisagées pour y répondre ?

Semantics4FAIR permettra à des communautés scientifiques de trouver, adapter et réutiliser aisément les données produites par le centre de recherche de MétéoFrance (CNRM). Il s’agit d’outiller la description de ces données de façon adaptée aux futurs utilisateurs alors que les métadonnées et descriptions actuelles sont, lorsqu’elles existent, calquées sur le point de vue des producteurs des données. L’approche retenue s’appuie sur des modèles de connaissances, des ontologies, qui expliciteront la sémantique des données du CNRM d’une part, celle des données recherchées par les communautés d’usage d’autre part. Nous expliciterons les correspondances entre ces deux points de vue sous forme de reformulations logiques et mathématiques. Nous adopterons une démarche ergonomique afin de recueillir précisément auprès des utilisateurs les besoins et usages prévus des données.

Quelles sont les perspectives en termes d’applications potentielles pour la communauté scientifique du domaine, des autres champs disciplinaires, ou encore pour la société ?

Pour la communauté scientifique du CNRM, cette étude sera l’opportunité de diffuser plus largement les données qu’elle collecte et élabore par ses modèles et mesures, et de mettre en valeur leurs avantages quantitatifs et qualitatifs face à d’autres sources alternatives. Pour les autres disciplines, l’objectif est de retrouver plus facilement les bonnes données météorologiques dont elles ont besoin dans leurs études. Pour la société, il s’agit d’accéder à des données documentées, de qualité et de comprendre leur pertinentes en regard de celles d’autres sites. Nous testerons cette approche conjointement avec la communauté scientifique de l'atmosphère (CNRM et OMP) qui fournit des données de météorologie, et avec deux communautés utilisatrices de données : des pollinologues (GET) et les services opérationnels de la météorologie (MétéoFrance).

Le projet Semantics4FAIR est coordonné par Nathalie Aussenac-Gilles (IRIT-UPS). Il regroupe 5 partenaires : IRIT, CNRM, OMP, GET, MSHS-T, et est financé pour une durée de 24 mois.