FAIRifier le logiciel: un environnement semi-automatique pour la gestion du cycle de vie du logiciel – SoFAIR
L'un des principaux obstacles à la découverte, à l'attribution et à la réutilisation des logiciels de recherche ouverts est qu’ils sont souvent à peine mentionnés dans les publications scientifiques qui y font référence. Pour que ces ressources deviennent des objets référençable de premier ordre, elles doivent pouvoir être identifiées, enregistrées avec des identifiants persistants (PID) et à terme répondre à l’ensemble des principes FAIR (Findable, Accessible, Interoperable and Reusable). À ce jour, la plupart des logiciels de recherche ouverts ne respectent pas ces principes et les ressources logicielles ne sont généralement pas explicitement liées aux manuscrits qui les ont introduites ou utilisées.
Le présent projet va étendre les capacités des infrastructures ouvertes critiques existantes (CORE, Software Heritage, HAL) et des outils (GROBID) exploités par les partenaires du consortium, en fournissant et en déployant une solution efficace pour la gestion du cycle de vie des actifs logiciels de recherche, y compris : 1) l'identification assistée par apprentissage automatique des objets logiciels à partir des manuscrits d’articles scientifiques, 2) la validation des objets identifiés par les auteurs, 3) l'enregistrement ceux-ci avec des identifiant pérenne avant leur archivage.
La solution proposée sera optimisée pour être déployée sur du contenu ouvert disponible via le réseau mondial de dépôts ouverts agrégés par CORE (core.ac.uk), qui constitue avec plus de 32 millions de textes intégraux et plus de 250 millions d'enregistrements de métadonnées provenant de plus de 10 000 bases la plus grande collection de documents en libre accès au monde. Notre logiciel d’apprentissage automatique pour l'extraction et la désambiguïsation des actifs logiciels sera réalisé comme une extension de l'outil de pointe GROBID. Nous nous appuierons sur des protocoles établis, tels que les directives OpenAIRE v4.0, RIOXX v3 et CodeMeta, pour encoder des informations sur les objets logiciels et leurs liens avec les manuscrits de recherche, en établissant un flux de travail interopérable et extensible reliant les dépôts ouverts (typiquement HAL), les agrégateurs (représentés par CORE) et les archives logicielles (représentées par Software Heritage). L'efficacité des outils et du flux de travail développés sera validée dans trois cas d'utilisation : 1) un démonstrateur des sciences de la vie (pour EuroPMC), 2) un démonstrateur multidisciplinaire pour les dépôts institutionnels (représenté par HAL) et 3) une étude de cas dans les humanités numériques (avec des liens avec les infrastructures DARIAH et EOSC).
Coordination du projet
Institut National de recherche en sciences et technologies du numérique (Organisme de recherche)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
OU The Open University
INRIA Institut National de recherche en sciences et technologies du numérique
BRNO Brno University of Technology
IBL-PAN Institute of Literary Research, Polish Academy of Sciences
EMBL-EDI European Bioinformatics Institute
Aide de l'ANR 138 771 euros
Début et durée du projet scientifique :
décembre 2023
- 24 Mois