
Sharing reliable protocols to transform datasets into gold standards: Application to Neuro-Vascular Pathologies
ShareFAIR
Mots-clés : FAIR; workflows; standards data and process; provenance sharing and reusability; protocols; automatic annotation of datasets
L'accès à une grande diversité de données complémentaires, multi-échelles et massives ouvre des opportunités uniques pour la recherche en santé. Un large éventail d'analyses de données complexes utilisant divers outils à configurer et interconnecter peut être développé sous la forme de workflows. La reproductibilité des résultats obtenus par ces analyses est un enjeu majeur en particulier pour les données de santé. Alors que le partage des données de santé est complexe et se heurte à la problématique de l’échange de données personnelles et à des contraintes techniques fortes, le partage des workflows permet de s’en extraire en ramenant les workflows proches des données et en garantissant des résultats scientifiques comparables car analysés de la même façon. Ces workflows fournissent aussi des traces de provenance des données analysées, décrivant la méthodologie utilisée et renforçant la confiance des scientifiques dans les résultats produits.
Les défis incluent donc la normalisation et l'annotation des ensembles de données et des workflows, l'extraction des workflows à partir de données textuelles et cliniques et leur synthèse en workflows interopérables, partageables et réutilisables.
L'originalité de ShareFAIR réside dans le fait d'aborder à la fois la fiabilité des jeux de données et celle des workflows.
Plus précisément, ShareFAIR fournira
- (WP1) des standards communs et de qualité pour annoter les données, les protocoles, les workflows, et pour fournir une provenance de qualité retraçant l'origine des données,
- (WP2) un cadre interopérable pour le partage, l'annotation, la réutilisation de protocoles et workflows fiables (FAIR),
- (WP3) des approches pour
- (i) extraire des workflows à partir de données textuelles afin d'enrichir l'ensemble des workflows et de mieux documenter la provenance des ensembles de données,
- (ii) apprendre ou extraire des workflows à partir d'ensembles de données biomédicales et cliniques.
Les preuves de concept réalisées seront appliquées à des cas d'utilisation réels liés aux pathologies neuro-vasculaires avec des ensembles de données multi-échelles et des workflows d'analyse complexes. Notre méthodologie s'aligne sur les principales infrastructures de recherche européennes telles qu'ELIXIR et EOSC-Life.
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Informations générales
Acronyme projet : ShareFAIR
Référence projet : 22-PESN-0007
Région du projet : Île-de-France
Discipline : 5 - Bio Med
Aide PIA : 1 799 890 €
Début projet : août 2023
Fin projet : août 2028
Coordination du projet : Sarah COHEN BOULAKIA
Email : sarah.cohen-boulakia@universite-paris-saclay.fr
Consortium du projet
Etablissement coordinateur : Université Paris-Saclay
Partenariat : Institut Pasteur, Université de Lyon I (Claude Bernard), Université de Paris IX (Dauphine), Université de Rennes, INRIA siège, INSERM Délégation Grand Ouest, CEA Saclay, CNRS IDF Sud (Gif), Université Paris Cité, CHU de Rennes