CE38 - Révolution numérique : rapports au savoir et à la culture

Extraction Optique des entités nommées manuscrites pour les actes de mariage de la population de Paris (1880-1940) – EXO-POPP

Résumé de soumission

En Europe, l'histoire des populations urbaines et suburbaines entre la fin du XIXe siècle et la Seconde Guerre mondiale est mal connue alors qu'il s'agit d'une période de profondes transformations, largement liées à l'industrialisation et à l'urbanisation. En France, la démographie historique s'est largement concentrée sur la période 1750-1830 et les villages. Les villes sont moins bien connues, et encore moins leurs banlieues, notamment parce que l'importance de leur population rend la collecte de données fastidieuse. Avec leur très grande variété de populations, Paris et sa banlieue offrent un cadre idéal pour mieux comprendre les transformations majeures des pratiques de mariage et de divorce sous la IIIe République.
Le projet EXO-POPP va développer une base de données de 300 000 actes de mariage de Paris et de sa banlieue entre 1880 et 1940. Ces documents fournissent une multitude d'informations sur les mariés, leurs parents et leurs témoins de mariage permettant des analyses sur le mariage, le divorce, les réseaux sociaux et de parenté. Couvrant une période de 60 ans, ces problématiques recouperont également des questions transversales telles que le genre, la classe et l'origine. La géolocalisation des données offrira, par ailleurs, une opportunité unique de travailler sur les lieux et les déménagements au sein de la ville, et le couplage avec deux autres bases de données permettra de suivre les individus de la naissance à la mort.
La constitution d'une telle base de données à la main nécessiterait au moins 50 000 heures de travail. Mais, grâce aux récents développements du deep learning, il est désormais possible de construire d'immenses bases de données avec des systèmes de lecture automatique comprenant la reconnaissance de l'écriture manuscrite et la compréhension du langage naturel. En effet, grâce aux progrès récents dans le domaine de l'apprentissage automatique et de l'apprentissage profond, la reconnaissance optique d'entités nommées imprimées (OP-NER) atteint désormais de très bonnes performances lors de l'analyse de textes réguliers tels que des livres d'exercice, des journaux anciens, et on s'attend à ce que des performances similaires puissent être atteintes sur des certificats de mariage imprimés de la période 1923-1940. D'autre part, la reconnaissance optique d'entités nommées manuscrites (OH-NER) n'a pas été beaucoup étudiée, alors que la reconnaissance de l'écriture manuscrite par une machine est devenue une réalité, grâce également à l'apprentissage profond. On s'attend donc à ce que OH-NER puisse obtenir des résultats intéressants sur les certificats de mariage manuscrits de la période 1880-1922. Dans le cadre de ce projet, les questions de recherche porteront sur les meilleures stratégies de désambiguïsation des mots pour la reconnaissance des entités nommées manuscrite. Nous explorerons les architectures d'apprentissage profond de bout en bout, l'adaptation du système de reconnaissance à l'écriture, et la désambiguïsation des entités nommées en exploitant la base de données de mortalité française (INSEE) et la base de données du projet POPP. L'effet secondaire de cette étude sera la constitution d'un jeu de données unique et très important de documents manuscrits pour la reconnaissance d'entités nommées. La base de données EXO-POPP contribuera à améliorer l'état de l'art dans ce domaine.
En plus de contribuer largement à répondre à des problématiques sur les mariages, les migrations, les réseaux familiaux et amicaux, les divorces et les séparations entre 1880 et 1940, parmi beaucoup d'autres, le projet EXO-POPP permettra une nouvelle étape dans la collaboration entre les informaticiens et les chercheurs en sciences humaines pour améliorer la reconnaissance et l'optique des caractères et de l'écriture manuscrite qui sont maintenant essentiels pour fournir de nouveaux outils précieux pour le traitement des sources, en particulier les sources historiques.

Coordination du projet

Sandra Brée (UMR 5190 - LABORATOIRE DE RECHERCHE HISTORIQUE RHONE-ALPES (MODERNE ET CONTEMPORAINE))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LITIS LABORATOIRE D'INFORMATIQUE, DE TRAITEMENT DE L'INFORMATION ET DES SYSTÈMES - EA 4108
LARHRA UMR 5190 - LABORATOIRE DE RECHERCHE HISTORIQUE RHONE-ALPES (MODERNE ET CONTEMPORAINE)

Aide de l'ANR 385 532 euros
Début et durée du projet scientifique : - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter