Extraction d’informations à partir de tableaux semi-structurés manuscrits du Fichier Domiciliaire pour une histoire de la population de Strasbourg (1871-1939) – POPSTRAS
POPSTRAS
Extraction d'informations à partir de tableaux manuscrits semi-structurés du Fichier Domiciliaire pour une histoire de la population de Strasbourg (1871-1939)
Construction d'une base de données à partir d'une source de données inédite en France avec des méthodes de Deep Learning
La démographie historique s'est principalement intéressée aux petites populations des villages et a peu analysé la population des villes, car la collecte des données prenait beaucoup de temps. Ainsi, les populations urbaines restent relativement peu étudiées, alors que les villes ont connu des transformations majeures (industrialisation, urbanisation). Les avancées récentes en Deep Learning permettent de surmonter ces difficultés et d'exploiter de nouvelles sources de données. <br />L'objectif de ce projet est de construire une base de données d’envergure à partir d'une source de données inédite en France : le Fichier Domiciliaire de la ville de Strasbourg (1871-1939). Celle-ci permettra de suivre les individus dans le temps et dans l’espace sur une longue période, et de reconstituer leurs trajectoires familiales et résidentielles. Sa richesse rendra possible des analyses innovantes sur un large éventail de sujets. Pour cela, nous utiliserons des méthodes informatiques innovantes de reconnaissance automatique de caractères manuscrits basées sur le Deep Learning.<br />Si la source utilisée dans ce projet est une opportunité unique pour mieux comprendre une population urbaine de cette période, elle pose également des défis spécifiques et originaux pour l'informatique, notamment en termes d’océrisation automatique des sources historiques. Ce corpus est complexe à traiter du fait des difficultés spécifiques liées à l'écriture manuscrite et à la diversité des mises en page semi-tabulaires (nature manuscrite du texte, différents styles d'écriture cursive en latin et en allemand, variation dans la disposition spatiale des lignes et des champs d'information, phrases parfois serrées ou débordant dans les champs voisins). La collaboration d’une équipe d’informaticiens spécialistes de Deep Learning pour la vision et le traitement du langage pour la lecture automatique de documents, et d’une équipe pluridisciplinaire de chercheurs en sciences humaines (démographes, historiens, géographes) permettra de mener à bien ce projet.
Le Fichier Domiciliaire de la ville de Strasbourg (FDS), tenu par la police, est ouvert dès le début de l’annexion et reste en vigueur après le retour de l’Alsace-Moselle à la France. Il comprend 1,2 million de fiches de ménage, rédigées en allemand (écriture gothique, Kurrentschrift) entre 1871 et 1919, puis en français après 1919. Chaque fiche rassemble de nombreuses informations sociodémographiques sur les membres de chaque ménage ainsi que des informations sur le parcours résidentiel du ménage, dans et hors de la ville.
Les avancées récentes du Deep Learning permettent de reconnaître les informations contenues dans un document manuscrit scanné et de les consigner dans une base de données tabulaire. Toutefois, la nature du FDS soulève des défis scientifiques et techniques spécifiques. Les fiches sont des documents manuscrits semi-structurés, composés de tableaux très irréguliers et rédigés en deux langues. Les informations à extraire sont majoritairement des entités nommées (noms, prénoms, lieux, dates, etc.), appartenant à des lexiques étendus, complexifiant la reconnaissance automatique. Pour surmonter ces difficultés, le projet vise à développer un système de compréhension de documents manuscrits irréguliers dont les résultats seront désambiguïsés à l’aide des annuaires de la ville de Strasbourg. À partir de l’architecture DANIEL, un réseau d’attention tabulaire (TAN) sera développé pour l’extraction d’entités nommées dans des tableaux manuscrits bilingues. Le système sera préentraîné sur des données synthétiques générées automatiquement à partir de Wikipédia et des annuaires de la ville de Strasbourg, imitant la mise en page et le style manuscrit du FDS, puis affiné sur au moins 5 000 fiches réelles annotées. Une première version traitera les fiches simples ; une seconde s’appuiera sur la technique du Visual Question Answering pour traiter les cas complexes (chevauchements, annotations, etc.). Cette approche vise à extraire des entités nommées sans avoir besoin de lire l’ensemble du tableau irrégulier, en interrogeant le système via des «questions« ou requêtes ciblées en ciblant directement les informations recherchées.
La base produite sera enrichie par un géocodage des adresses. Un SIG historique sera développé intégrant la géolocalisation des numéros de rues dans le temps. Il tiendra compte de l'évolution de l'environnement bâti, des changements de noms de rues et de numéros de maisons que la ville a connus au fil du temps.
La base finale permettra, dans un premier temps, d’exploiter le potentiel analytique du FDS pour apporter des contributions originales à l’analyse de la transition démographique des populations urbaines, en étudiant les mécanismes du changement de fécondité et de mortalité à Strasbourg entre 1871 et 1939 selon six dimensions transversales (immigration, religion, structure socio-économique, transfert intergénérationnel, mobilité).
Du point de vue de l’informatique, aucune étude n’a, à ce jour, été consacrée à la reconnaissance d’entités nommées dans des tableaux manuscrits semi-structurés (imprimés ou manuscrits). Le projet POPSTRAS contribuera à cet objectif par le développement d’un système générique et interactif d’extraction fondé sur la VQA pour la compréhension de tableaux, qui sera mis à disposition de la communauté de recherche en open source. La production d’un nouveau jeu de données FDS annoté, spécifique mais exigeant (METS/ALTO et exportations JSON), constituera un autre résultat majeur du projet POPSTRAS et sera rendue publique pour la communauté scientifique (images et annotations d’entraînement). De plus, à l’issue de ce processus d’extraction, une nouvelle base de données construite à partir des Annuaires de la Ville de Strasbourg sera produite et mise à disposition de la communauté des SHS (sous forme de base de données relationnelle ou d’exportations CSV). Cette base de données servira de source secondaire pour le contrôle, la correction et la validation automatiques des résultats d’extraction du système.
Du point de vue des SHS, la base de données POPSTRAS réunira dans une seule base de données relationnelle une multitude d'informations qui doivent généralement être extraites de différentes sources : état civil (naissances, mariages, décès, divorces), recensements (caractéristiques des individus et des ménages) et registres de population (migration et mobilité résidentielle). Elle sera longitudinale, permettant de suivre les individus dans le temps et dans l'espace sur une longue période (1871-1939), lorsque l'Europe est passée d'une société rurale à une société essentiellement urbaine. Son potentiel analytique fera de Strasbourg une étude de cas pour l'analyse des populations urbaines. La base de données permettra des analyses transversales et longitudinales des phénomènes démographiques (fécondité, dynamique du mariage et de la famille, mortalité, migration et mobilité résidentielle). Son exhaustivité permettra des analyses détaillées et l'étude de sous-populations généralement difficiles à analyser statistiquement. Grâce à la localisation précise des lieux de résidence des individus, des analyses seront possibles à différentes échelles spatiales (bâtiment, rue, quartier, etc.). Les chercheurs pourront étudier la différenciation spatiale des phénomènes démographiques dans la ville, leur évolution et leur diffusion, et mesurer les « effets de quartier » sur les comportements individuels. L'étude des parcours de vie individuels, de l'interaction entre les domaines de la vie, tels que les trajectoires familiales, résidentielles et professionnelles, sera possible, ainsi que les recherches intergénérationnelles sur les familles sédentaires. Avec une source de données documentant le sexe, l'état civil, le lieu de naissance, la nationalité, la profession et la religion, le potentiel de perspectives analytiques est énorme.
La base de données POPSTRAS ouvrira de nouvelles perspectives de recherche pour la démographie historique et les études démographiques, ainsi que pour un large éventail de sciences humaines et sociales. De nombreux thèmes liés à l'histoire sociale, familiale et migratoire pourront être abordés, tels que la stratification sociale, la mobilité sociale individuelle et intragénérationnelle, l'homogamie sociale et religieuse, les liens familiaux et la proximité à l'intérieur et à l'extérieur de la ville, l'intégration et l'assimilation des immigrants, etc.
La technologie orientée IA de POPSTRAS ouvre également de nouvelles perspectives. En effet, la collaboration avec des informaticiens, appuyées par leurs progrès récents en matière de reconnaissance optique de caractères et de manuscrits, permettront d’envisager la création d’autres bases de données de grande ampleur. Il sera possible de relier davantage de bases de données entre elles, favorisant ainsi l’émergence de nouvelles questions de recherche. Il s’agira d’une avancée majeure pour les travaux en histoire quantitative, car elle réduira fortement le temps consacré à la collecte des données tout en permettant la constitution de bases de données beaucoup plus vastes, ouvrant ainsi la voie à des traitements statistiques bien plus raffinés. La capacité du système à analyser des documents semi-structurés et à intégrer des sources de connaissances externes dans le processus d'extraction d'informations lui-même ouvrira l'accès à des sources historiques qui n'avaient jamais été exploitées auparavant.
Diffusion scientifique : pendant le projet, l'équipe publiera des articles sur les innovations méthodologiques et techniques du projet. Les membres des équipes informatique et sciences humaines et sociales communiqueront lors de conférences internationales et publieront conjointement des articles afin d'informer les deux communautés scientifiques des progrès réalisés. Nous accorderons une attention particulière à la publication dans des revues en libre accès afin de garantir une large diffusion des résultats du projet. Une conférence de fin de projet sera organisée afin de diffuser les principaux résultats.
Diffusion des données : nous avons élaboré un plan de gestion des données (DMP). Pendant toute la durée du projet, toutes les images et données seront stockées sur les serveurs IR* Huma-Num. À la fin du projet, les images FDS haute résolution seront mises à la disposition des Archives de la Ville et de l'Eurométropole de Strasbourg, qui les diffuseront gratuitement sur leur site web. Cela répondra à une forte demande, notamment de la part de la communauté généalogique. Actuellement, il est nécessaire de se rendre sur place pour consulter le FDS.
Toutes les données (base de données complète, codes utilisés pour la correction et le recodage, SIG historique, etc.) et métadonnées issues du projet seront archivées à l'IR* PROGEDO, qui assurera leur diffusion auprès de la communauté scientifique. Ce processus permettra d'obtenir un DOI pour les données, garantissant une plus grande visibilité au projet.
Ce projet vise à construire une base de données d’envergure à partir d’une source de données inédite en France, le Fichier Domiciliaire de la ville de Strasbourg (1871-1939). La base permettra de suivre les individus dans le temps et l'espace sur une longue période et de reconstituer leurs trajectoires familiales et résidentielles. Sa richesse rendra possible des analyses innovantes sur un large éventail de sujets. Nous utiliserons pour cela des méthodes informatiques innovantes de reconnaissances automatiques de caractères manuscrits reposant sur du Deep Learning.
Les populations urbaines de cette période restent peu étudiées, alors que les villes connaissent des transformations importantes (industrialisation, urbanisation). La démographie historique s’est surtout intéressée aux petites populations des villages et a peu analysé la population des villes en raison d’un temps de collecte important. Les avancées récentes en Deep Learning permettent de surmonter ces difficultés et d'exploiter de nouvelles sources de données.
Si la source utilisée dans ce projet, quasiment inexploitée, est une opportunité unique pour mieux comprendre une population urbaine de cette époque, elle représente également des enjeux spécifiques pour l’informatique, notamment en termes d’océrisation automatique des sources historiques. Ce corpus est complexe à traiter à cause de difficultés spécifiques liées à l'écriture manuscrite et à la diversité des mises en page semi-tabulaires (nature manuscrite du texte, différents styles d'écriture cursive en latin et en allemand, variation de la disposition spatiale des lignes et des champs d'information, phrases parfois à l’étroit ou débordant sur les champs voisins).
La collaboration d’une équipe d’informaticiens spécialistes de Deep Learning pour la vision et le traitement du langage pour la lecture automatique de documents et d’une équipe pluridisciplinaire de chercheurs en SHS (démographes historiens, géographes) permettra de mener à bien ce projet
Coordination du projet
Bénédicte GERARD (UNIVERSITÉ STRASBOURG)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
SAGE UNIVERSITÉ STRASBOURG
LITIS UNIVERSITÉ ROUEN
IDEES IDENTITE ET DIFFERENCIATION DE L'ESPACE, DE L'ENVIRONNEMENT ET DES SOCIETES
Aide de l'ANR 597 914 euros
Début et durée du projet scientifique :
novembre 2025
- 54 Mois