Enrichissement d'une base de connaissances à partir de données prosopographiques médiévales incertaines – LAURA
Un des problèmes contemporains réside dans la construction de bases de connaissances à partir de grandes collections de documents. Pour ce faire, il est nécessaire de maîtriser un processus complet et complexe qui englobe plusieurs domaines de l’informatique telles la numérisation, l’extraction d’entités nommées, la fusion/alignement de données, etc. L'enrichissement des bases de connaissances est essentiel en histoire. En effet, ces bases de données sont le socle sur lequel reposent les hypothèses émises par les historiens. En alimentant régulièrement ces bases avec de nouvelles informations, nous permettons de compléter les connaissances mais aussi le cas échéant de conforter la crédibilité d’une information ou à l’inverse de la diminuer, voire de corriger des connaissances déjà présentes. Cet enrichissement offre de nouvelles opportunités de découvertes et d'avancées significatives en améliorant la qualité et la quantité de données exploitables pour bâtir des hypothèses historiques. C’est l’ambition du projet LAURA qui porte sur les bases prosopographiques ayant pour objet la période médiévale. La prosopographie est une méthode des sciences sociales dans laquelle on cherche à analyser un groupe à partir d’une étude systématique des itinéraires singuliers des individus qui le composent. Pour cela les chercheurs collectent tous les faits (factoïdes) possibles sur chaque individu. En histoire, ces données sont rares, discontinues, incertaines et souvent d’une qualité médiocre. Ainsi, les personnes sont désignées par plusieurs noms, les lieux changent de noms et de frontières avec le temps et un parcours de diplomation peut changer en fonction de l’époque, du lieu ou de la classe sociale de la personne. En raison de cette complexité, de nombreuses règles restent opaques pour les historiens.
Les problématiques de recherche communes, entre historiens et informaticiens, sur ces données prosopographiques sont nombreuses. Le peuplement et l’enrichissement de ces gisements de données pourraient être réalisés à l’aide d’un protocole qui s’appuierait sur l’expérience et les résultats capitalisés dans l’ANR DAPHNE qui a débouché sur plusieurs contributions majeures (4 journaux, 16 conférences, 1 logiciel et 2 projets connexes). Les objectifs du projet LAURA capitalisent sur les résultats du projet DAPHNE afin de réaliser la chaîne complète de traitement : depuis la numérisation et l’extraction des données à l’enrichissement de la base de connaissances puis l’exploitation de celle-ci, tout en proposant une prise en compte de l’incertitude. Cette base de connaissance sera mise à disposition à la communauté via une plateforme libre.
Coordination du projet
Cédric Du Mouza (CONSERVATOIRE NATIONAL DES ARTS ET MÉTIERS PARIS)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
CEDRIC CONSERVATOIRE NATIONAL DES ARTS ET MÉTIERS PARIS
LAMOP Laboratoire de médiévistique occidentale de Paris
ARCHIVES NATIONALES
LIX Laboratoire d'Informatique de l'Ecole Polytechnique
LSH Centre Lucien Febvre - LABORATOIRE DES SCIENCES HISTORIQUES
LEM Laboratoire d'Etudes sur les Monothéismes
LIP6 LABORATOIRE D'INFORMATIQUE DE PARIS 6
University of Perugia
Aide de l'ANR 849 978 euros
Début et durée du projet scientifique :
décembre 2025
- 48 Mois