DS0703 - Le numérique au service des arts, du patrimoine, des industries culturelles et éditoriales

Extraction automatisée des Contenus géoLinguistiques d'ATlas et analyse Spatiale: application à la Dialectologie – ECLATS

Extraction automatisée des Contenus géoLinguistiques d’ATlas et analyse Spatiale : application à la dialectologie

Le projet ECLATS s’attache à la valorisation et l’analyse des documents cartographiques anciens, patrimoine historique et culturel reconnu comme source d’information riche mais difficilement exploitable. Nous nous intéressons à l'Atlas Linguistiques de France (ALF), élaborés entre 1902 et 1910 qui fournit les données de premier ordre en dialectologie et permet d'étudier les caractéristiques phonétiques, morpho-syntaxiques, lexicales, sémantiques ou prosodiques des langues à tradition orale.

L'Atlas Linguistique de France: un patrimoine cartographique ancien à valoriser

Pour étudier les parlers locaux, la dialectologie s’est spécialisée dans la constitution de corpus de données phonétiques transcrites dans des atlas linguistiques. Ces ouvrages regroupent un ensemble de cartes sur lesquelles sont inscrites, pour une notion donnée, les formes phonétiques collectées à des points géographiques d’enquête. Si l'approche théorique utilisée lors de la collecte des données et la construction des atlas est structurée, fiable et homogène, en revanche, l'outillage logiciel et méthodologique destiné à l'exploitation des données géographiques et cartographiques est très en retard, et, la géomatique, a très peu investi ce domaine: le traitement des données d’atlas et la réalisation des cartes interprétatives identifiant des aires linguistiques homogènes s’effectuent de façon manuelle, ce qui est particulièrement chronophage et approximatif; les systèmes d'information géographique, les méthodes d'analyse spatiale et les données géographiques sont peu utilisés. Ce retard constitue un frein à une interprétation efficace des données géolinguistiques et à l’extraction de connaissances issues d’un patrimoine culturel ancien. <br />L’objectif est d’apporter un outillage logiciel et méthodologique innovant facilitant l’extraction, l'analyse, la visualisation et la diffusion des données contenues dans les atlas linguistiques anciens afin de permettre des recherches novatrices en dialectologie. Nous proposons de mettre en place une chaine de traitement dont les principales étapes sont : l’extraction automatique de contenu cartographique par analyse d’image ; l’interprétation sémantique des données extraites ; le traitement et l’analyse des données interprétées via des approches de géovisusalisation et d’analyse spatiale. L'objectif est de concevoir et de développer une plateforme géomatique dédiée à la géolinguistique afin de permettre des recherches novatrices en dialectologie, et de contribuer à la valorisation du patrimoine cartographique géolinguistique.

Ce projet pluridisciplinaire se positionne dans le domaine de la géomatique à l’interface entre l’informatique, les sciences de l’information géographique et la géolinguistique. Il associe des équipes informatiques spécialisées en géomatique (LIG), en numérisation de documents anciens (LIRIS) et en extraction automatique de contenus (LIRIS, Li3), et une équipe experte en dialectologie (GIPSA-lab). Le projet ECLATS se place dans le domaine des humanités numériques pour lequel il entend proposer une chaine de traitement géomatique adaptée à la valorisation de données difficilement exploitables que constituent les supports cartographiques anciens. La méthodologie du projet ECLATS repose sur différents axes interconnectés, chacun faisant d'un l'objet d'un lot impliquant les différents partenaires :
Lot 1. définir des modèles de représentation des données géolinguistiques en vue de leur intégration dans un système d’information et des formats d’échange assurant leur l’interopérabilité ;
Lot 2. proposer un processus de stockage des cartes numérisées afin de faciliter leur exploitation et leur diffusion
Lot 3. développer des méthodes d'extraction de contenus par vectorisation et annotation de contenus de cartes anciennes.
Lot 4. proposer des méthodes d'analyse spatiale et de géovisualisation pour la production de cartes interprétatives et l'extraction de connaissances géolinguistiques.
Lot 5. promouvoir une démarche collaborative pour faciliter la mutualisation et la diffusion des données géolinguistiques;
Le caractère générique donné aux propositions développées dans ce projet doit répondre aux besoins de valorisation et de traitement du contenu des cartes anciennes qui constitue un patrimoine historique et culturel reconnu comme source d’informations particulièrement riche et difficilement exploitable.

Développement de trois outils opérationnels mis à disposition des différents acteurs du projet et du public
1 : Site Web cartographique pour la consultation interactive des cartes de l’Atlas Linguistiques de France. Ce site est accessible sur cartodialect.imag.fr/cartoDialect/. Il est régulièrement consulté par des utilisateurs hors projet (historiens, dialectologues, chercheurs ou privés …) qui nous font part de remarques constructives. Il est aussi utilisé par des étudiants en géolinguistique de l’Université Grenoble Alpes dans le cadre de leur formation. Ce site doit être mis en production de façon pérenne.
2 : ShinyDialect, un outil d’analyse spatiale, permettant la construction de cartes géolinguistiques interprétatives. Cette application, développée sous environnement R et accessible via le Web intègre des algorithmes d’interpolation spatiale de données qualitatives permettant de construire des cartes à base d’isoglosses. Dans sa version V1, il fait l’objet de tests et est réservé aux membres du projet.
3 : DiaclectoLOD. Une application Web de consultation des données issues de l’ALF (données phonétique, données interprétées). Une première version est accessible sur
ritamitsouko.imag.fr/dialectoLOD-1.0/ et fait aussi l’objet d’une validation par les utilisateurs.

Projet en cours

Projet en cours

Le projet ECLATS s’attache à la valorisation et l’analyse des documents cartographiques anciens, un patrimoine historique et culturel reconnu comme source d’information particulièrement riche mais difficilement exploitable. Nous nous intéressons plus particulièrement à l'Atlas Linguistique de France (ALF), élaboré entre 1902 et 1910, qui fournit les données de premier ordre en dialectologie.
La dialectologie s’intéresse à l’étude des traits linguistiques caractéristiques des langues à tradition orale comme les parlers locaux (patois ou dialectes). Ces traits peuvent être de natures différentes - phonétique, morpho-syntaxique, lexicale, sémantique ou prosodique - et évoluent dans l’espace géographique, au cours du temps, au contact de la société. Pour étudier les parlers locaux, la dialectologie s’est spécialisée dans la constitution de corpus de données phonétiques transcrites dans des atlas linguistiques. Ces ouvrages regroupent un ensemble de cartes sur lesquelles sont inscrites, pour une notion donnée, les formes phonétiques collectées en des points géographiques d’enquête. Composé de 1900 cartes représentant 639 points d’enquête, l’ALF qui représente un des atlas linguistiques les plus emblématiques, constitue un corpus de 1.214.100 données lexicales sur papier, fiables, notées de façon homogène, à partir d'un seul questionnaire, avec précision des lieux, des dates, des circonstances.
En géolinguistique et dialectologie, l'approche théorique utilisée lors de la construction des atlas est structurée, fiable et homogène. En revanche, l'outillage logiciel et méthodologique destiné à l'exploitation des données cartographiques est très en retard : le relevé des données issues d’atlas et la réalisation des cartes interprétatives s’effectuent de façon manuelle, ce qui est particulièrement chronophage; la dématérialisation des cartes anciennes n’est pas systématique; les systèmes d'information géographique et les méthodes d'analyse spatiale sont peu utilisés, limitant le traitement et l’interprétation des données. Ce retard constitue un frein à une diffusion et une exploitation efficaces des données anciennes et à la valorisation du patrimoine linguistique.
Le projet ECLATS propose d’apporter un outillage logiciel et méthodologique innovant facilitant l’extraction, l'analyse, la visualisation et la diffusion des données contenues dans les atlas linguistiques anciens afin de permettre des recherches novatrices en dialectologie. Il s'attache à :
- définir des modèles de représentation des données géolinguistiques en vue de leur intégration dans un système d’information, ainsi que des formats d’échange favorisant l’interopérabilité des données ;
- proposer un processus de stockage des cartes numérisées afin de faciliter leur exploitation et leur diffusion;
- développer des méthodes d'extraction de contenus et d’annotation de cartes anciennes. Le caractère générique des propositions doit permettre leur application à d’autres documents cartographiques anciens;
- proposer des méthodes d'analyse spatiale et de géovisualisation facilitant la production de cartes interprétatives et l'extraction de connaissances géolinguistiques ;
- promouvoir une démarche collaborative de mutualisation et de partage des données géolinguistiques.
Ce projet pluridisciplinaire se positionne dans le domaine de la géomatique à l’interface entre l’informatique, les sciences de l’information géographique et la géolinguistique. Il associe des équipes de recherche en informatique spécialisées en géomatique (LIG), en numérisation de documents anciens (LIRIS) et en extraction automatique de contenus (LIRIS, Li3), et une équipe experte en dialectologie (Gipsa-lab). Il se place dans le domaine des humanités numériques pour lequel il entend proposer une chaîne de traitement géomatique adaptée à la valorisation des données difficilement exploitables que constituent les supports cartographiques anciens.

Coordinateur du projet

Madame Paule-Annick Davoine (Laboratoire d'Informatique de Grenoble)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIG Laboratoire d'Informatique de Grenoble
GIPSA-Lab Laboratoire Grenoble Images Parole Signal Automatique
L3I Laboratoire Informatique, Image et Interaction
INSA Lyon - LIRIS Institut National des Sciences Appliquées de Lyon - Laboratoire d'Informatique en Image et Systèmes d'Information

Aide de l'ANR 529 433 euros
Début et durée du projet scientifique : septembre 2015 - 48 Mois

Liens utiles

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter