DS10 - Défi des autres savoirs 2017

Visualisation, exploration et liaison de ressources innovantes pour le latin médiéval – VELUM

Résumé de soumission

Ce projet est une première étape vers une plate-forme innovante pour l’étude des langues et cultures de l’Europe médiévale. La civilisation médiévale ne peut être étudiée qu’au travers des traces parvenues jusqu’à nous. Les textes, très variés et conservés en grande quantité, sont notre principale source de connaissances. Écrits pour la plupart en latin médiéval, dans un contexte social sans rien de commun, tant avec l’Antiquité qu’avec notre époque, ils n’ont pas bénéficié des progrès récents en linguistique computationnelle.

Pour répondre à ce défi, nous souhaitons construire, en premier lieu, un large corpus équilibré de textes médiolatins écrits dans toute l’Europe entre 500 et 1500. Au-delà d’une large couverture géographique et chronologique, le corpus reflétera la grande diversité des genres pratiqués au Moyen âge, autant que la richesse fonctionnelle de la culture écrite médiévale. Pour permettre leur traitement automatique, les textes seront pourvus d’une annotation (parties du discours, lemmes, géographie et chronologie). La compilation et l’annotation du corpus ne formeront que la première étape du projet. En second lieu, un outil d’interrogation du corpus sera construit, en prenant appui sur le logiciel CQP-Web. Les utilisateurs pourront interroger les textes, et bénéficier de leur riche annotation linguistique à travers une interface très maniable. En troisième lieu, des outils permettant l’analyse statistique et la visualisation de données seront développés, afin que les utilisateurs les incluent dans leur propre chaîne de travail. Essentiellement écrits pour R, les scripts, programmes et autres fonctions permettront une étude avancée du vocabulaire médiolatin, tout en restant applicables à d’autres langues.

Le projet profitera de l’exceptionnelle infrastructure documentaire et numérique de l’IRHT-CNRS, fort d’une bibliothèque de 120 000 volumes, et d’un pôle numérique qui fournira aide et support à toutes les étapes du processus. L’équipe du coordinateur couvre diverses spécialités (linguistique computationnelle, lexicographie, histoire) destinées à collaborer étroitement. Le recrutement d’un(e) jeune chercheur/se est prévu pour une durée de 36 mois.

Outils comme textes développés dans le cadre de ce financement seront mis librement à la disposition de la communauté scientifique, sur le site internet du projet et dans des dépôts ouverts de données numériques (code informatique et textes latins). Ce mode de dissémination devrait non seulement faciliter la recherche, mais aussi influencer les pratiques courantes de la recherche historique et philologique, en promouvant des approches automatiques de « lecture distante » envers les textes anciens.

Bruno Bon (Institut de recherche et d'histoire des textes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

IRHT Institut de recherche et d'histoire des textes

Aide de l'ANR 256 122 euros
Début et durée du projet scientifique : février 2018 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.