Projet HisArc-RDF - Partage et réutilisation de données archéologiques et historiques : une description en RDF appuyée sur les référentiels et les normes du web sémantique

3 questions sur ce projet lauréat de l’appel Flash science ouverte

En quoi l’application des principes de la science ouverte, à propos des données de la recherche, constitue-t-il un enjeu dans votre domaine, discipline ou spécialité ?

L’archéologie ne peut jamais reproduire l’expérience de la fouille. Comme l’histoire, elle décentre l’essentiel de son étude vers des objets scientifiques dérivés, « traces de traces » naguère matérielles (note, illustration, archive), aujourd’hui numériques. L’établissement de liens documentés entre les outils et processus d’acquisition, les observations directes (le terrain) et leurs analyses conditionne la constitution de grands corpus, leurs enrichissements et leur interconnexion à l’aide de descripteurs contrôlés (autorités) capables de nourrir les algorithmes de recherche et de classification. La consolidation de leur diffusion et de leur partage est ainsi devenue un enjeu essentiel.

Quels sont les objectifs du projet et les approches envisagées pour y répondre ?

HisArc-RDF propose de croiser terminologie et ontologie pour décrire les données archéologiques selon les principes FAIR en prototypant une chaîne opératoire sur quatre jeux de données tests, structurellement et sémantiquement hétérogènes, choisis pour couvrir différentes thématiques, sur le plan du vocabulaire comme sur celui de la modélisation des données. Les jeux-tests seront parallèlement alignés sur les référentiels du web sémantique et appariés sur le modèle du Cidoc-CRM, pour construire une description structurée en RDF des valeurs comme des relations entre les données. Pour ce faire, on interconnectera des micro-thésaurus issus des pratiques métier, les notices d’autorités d’IdRef, le gestionnaire de thésaurus Opentheso et le logiciel de gestion d’ontologies OntoME. Les jeux de données brutes ainsi décrits seront directement trouvables et réutilisables (linked open data).


Partage et réutilisation de données archéologiques et historiques : une description en RDF
appuyée sur les référentiels et les normes du web sémantique © Archéorient-lod-cloud.net

Quelles sont les perspectives en termes d’applications potentielles pour la communauté scientifique du domaine, des autres champs disciplinaires, ou encore pour la société ?

HisArc-RDF recherche la chaîne de traitement la plus proche possible des pratiques de recherche, sur le terrain et dans les laboratoires, pour accélérer l’acculturation des communautés archéologiques et historiques (avec effet de bord sur des disciplines connexes) à l’enjeu pratique et scientifique de l’alignement sur des thésaurus et des normes du web sémantique et du partage des données « primaires » (linked open data). La capitalisation des résultats (par formation et expérimentation) fera l’objet d’ateliers et de formations spécifiques. Le projet s’articulera avec une politique générale de « datapapers » archéologiques en cours d'élaboration à l'échelle nationale (Open Edition, Huma-Num). Pour ce faire, tous nos résultats (méthodologie, micro-thésaurus, logiciels développés) seront publiés sous un régime de licence (Etalab ou CC-BY) autorisant leur partage et leur réutilisation.

Le projet HisArc-RDF est coordonné par Marie-Odile Rousset (CNRS). Il regroupe 12 partenaires : l’UMR 5133 Archéorient, UMR 5190 LARHRA, la Maison de l’Orient et de la Méditerranée, l’UMR 5189 HiSoMA, Bibracte EPCC, ABES, Archéodunum, UMR 6249 Chrono-Environnement, UMR 7044 Archimède, UMR 8546 AOrOc, réseau SPATIO des MSH, EA 3083 ERIC, et est financé pour une durée de 18 mois.