CE27 - Culture, création, patrimoine 2021

Accroître la vitalité et la visibilité numérique des langues de France : descriptions linguistiques et corpus annotés – DIVITAL

Accroître la vitalité et la visibilité numérique des langues de France : descriptions linguistiques et corpus annotés

DIVITAL : Donner aux langues régionales de France (alsacien, corse, occitan, poitevin-saintongeais) une place dans l’ère numérique. En créant et enrichissant des corpus linguistiques structurés (corpus parallèles et corpus annotés) pour ces langues peu dotées, le projet lutte contre leur invisibilité et contribue à leur vitalité en fournissant des ressources numériques essentielles au développement d’outils de Traitement Automatique des Langues.

Enjeux et objectifs

Le projet DIVITAL s'inscrit dans un contexte où les langues régionales de France que sont l'alsacien, le corse, l'occitan et le poitevin-saintongeais souffrent d'une situation de minorisation et d'un fossé numérique important par rapport au français. Le manque de ressources numériques et d'outils est un frein majeur au développement du Traitement Automatique des Langues (TAL) pour ces langues. L'objectif général du projet DIVITAL est d'accroître la vitalité et la visibilité numérique de ces quatre langues peu dotées. Le travail vise à produire des descriptions linguistiques actualisées, à créer des ressources et à sensibiliser la communauté du TAL aux problématiques spécifiques de ces langues. Le défi majeur est la pénurie de corpus annotés et de lexiques, rendant les tâches d'annotation manuelles longues et coûteuses en ressources humaines et financières. L'absence de norme orthographique stable et la forte variation interne (diatopique) des dialectes alsaciens, du corse, de l'occitan et du poitevin-saintongeais compliquent l'exploitation des textes et l'annotation. Par ailleurs, l'absence de codes normés (comme ISO 639-3) pour certaines langues (notamment le poitevin-saintongeais) conduit à leur invisibilisation dans l'espace numérique, compliquant leur documentation et leur inclusion dans les inventaires globaux de langues. Pour répondre à ces défis, le projet a mis en œuvre une double stratégie de création de ressources et d'innovation méthodologique (voir partie Méthodes et approches). Les ressources ainsi créées pourront servir de données d'entraînement pour le développement futur d'outils de TAL pour ces langues. Par ailleurs, en créant des ressources dans de nouveaux genres textuels (légaux, thématiques contemporaines), le projet favorise de nouvelles pratiques s'éloignant d'une simple vision patrimoniale. D'une manière générale, le projet permet de réduire les inégalités entre les langues en comblant le déficit en ressources numériques.

Méthodes et approches

L'approche principale consiste à créer des corpus parallèles par le biais de la traduction humaine de textes variés (littéraires, juridiques, journalistiques) depuis le français vers les quatre langues régionales. Ce processus permet d'enrichir les corpus dans de nouveaux genres non narratifs et contemporains. Une partie de ces textes est ensuite annotée selon un cadre international standardisé appelé Universal Dependencies (Dépendances Universelles), qui permet de décrire la structure grammaticale des phrases (catégories de mots et relations de dépendance).

Afin de rationaliser le processus d'annotation du corpus, les corpus sont pré-annotés automatiquement puis corrigés manuellement par des linguistes disposant de guides d'annotation. Les technologies testées pour la pré-annotation s'appuient sur le transfert de connaissances à partir de langues proches (comme l'allemand pour l'alsacien ou l'italien pour le corse). Diverses stratégies permettent de gérer la variation afin d'améliorer significativement la qualité de la pré-annnotation : méthodes simples de normalisation, utilisation de lexiques bilingues.

Pour gérer la complexité et la diversité dialectale de ces langues, le projet met l'accent sur la documentation précise et fine des données collectées (métadonnées), à l'aide d'un système de gestion de données. Ce système permet de collecter des informations très précises sur l'origine des textes, les auteurs, les genres, et les variétés dialectales, ce qui est crucial pour des langues où la variation (géographique, écrite) est très importante.

Résultats

Les travaux menés dans le cadre du projet DIVITAL ont produit des réalisations concrètes majeures.

L'aboutissement principal est la constitution de ressources linguistiques structurées pour ces langues, comblant ainsi un déficit par rapport au français.

Le projet a créé les premiers corpus annotés en syntaxe selon les directives internationales Universal Dependencies pour l'alsacien et le poitevin-saintongeais. Pour l'alsacien, le corpus comporte 977 phrases, soit près de 20 000 mots. Pour le poitevin-saintongeais, le corpus contient 239 phrases, soit environ 5 500 mots. Pour le corse, un corpus de 500 phrases a été annoté en catégories grammaticales selon les directives Universal Dependencies.

Un corpus unique de traduction reliant les quatre langues du projet et le français a été constitué et mis à disposition via la plateforme Parcolab, développée par une des équipes du projet. Ce corpus inclut des textes contemporains et non narratifs, comme la Déclaration Universelle des Droits de l’Homme ou des chroniques journalistiques. Des corpus monolingues ont également été mis à disposition sur ParCoLab, ce qui a permis d’augmenter très largement le volume de textes mis à disposition. Cette démarche permet aux langues régionales d'être utilisées et documentées dans de nouveaux domaines.

Perspectives

Les travaux du projet ouvrent la voie à de nombreuses applications pratiques, à l'amélioration d'outils numériques existants, et à des pistes de recherche originales, notamment pour les langues peu dotées.

Les corpus annotés créés constituent des ressources précieuses pour la recherche en syntaxe, en linguistique comparative et pour l'établissement de descriptions linguistiques actualisées.

La plateforme web ParCoLab, qui héberge le corpus parallèle DIVITAL, est conçue pour être un outil pratique pour les enseignants, les apprenants de langues et les traducteurs. Le corpus peut être utilisé dans l’enseignement primaire, secondaire ou universitaire pour des activités de comparaison linguistique. La démarche de créer de nouvelles ressources par la traduction de textes modernes et non narratifs permet de mettre à disposition des données inédites s'éloignant d'une simple vision patrimoniale de ces langues.

Les corpus annotés sont quant à eux une base indispensable pour le développement d'applications et de ressources numériques pour ces langues minorisées, telles que la traduction automatique, la création de lexiques multilingues ou encore l'entraînement d'analyseurs syntaxiques automatiques.

D'une manière générale, les méthodologies développées peuvent servir d'exemple à d'autres langues régionales peu dotées.

Résumé de soumission

Les ressources numériques, telles que les lexiques, les dictionnaires et les corpus de textes, (bruts ou enrichis d'annotations linguistiques), sont essentielles pour une meilleure inclusion des langues régionales et minoritaires dans le monde numérique. Pourtant, le fossé entre les langues bien dotées en ressources (moins de dix langues) et les langues "peu dotées" reste important. Cet écart est également documenté en France, où l'on constate que les langues régionales sont très peu pourvues en ressources et outils numériques, par rapport au français. Dans ce projet, nous nous focaliserons sur quatre langues peu dotées de France : l'alsacien, le corse, l'occitan et le poitevin-saintongeais.
D'un point de vue théorique, le projet intégrera et réévaluera les connaissances linguistiques sur ces langues, en comparaison avec d'autres langues proches. L'objectif sera de produire des descriptions complètes et actualisées, qui pourront être reprises dans des guides d’annotation.
Il s’agira également de sensibiliser les chercheurs et chercheuses en linguistique et en traitement automatique des langues aux problématiques des langues régionales de France, en augmentant le volume de ressources annotées et non-annotées disponibles. Les corpus intégreront des genres qui s’approchent de ou transcrivent la langue orale, par exemple des pièces de théâtre ou des ethnotextes narratifs, ainsi que des documents parallèles traduits. Les données étiquetées prendront la forme de corpus « Universal Dependencies » (UD). L'utilisation du système UD est motivée par sa large adoption par la communauté du traitement automatique des langues et par les nombreux outils et recommandations déjà disponibles.
Enfin, le projet étudiera comment partager et transférer les expériences et outils issus du projet entre langues. Cela devrait permettre aux langues les moins avancées de progresser et de bénéficier ainsi de l'expérience des autres pour accélérer leur développement. Au-delà des réalisations concrètes et immédiates pour les langues représentées dans ce projet, l'objectif est également de construire des méthodologies qui peuvent être utilisées et appliquées à d'autres langues moins dotées. C'est aussi un moyen de construire une communauté de chercheuses et chercheurs qui travaillent sur les langues moins dotées de France et des régions voisines.

Delphine BERNHARD (Linguistique, Langues et Parole (EA 1339 - UR 1339 depuis 01.01.2020))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LiLPa Linguistique, Langues et Parole (EA 1339 - UR 1339 depuis 01.01.2020)
FORELLIS FORMES ET REPRESENTATIONS EN LINGUISTIQUE, LITTERATURE ET DANS LES ARTS DE L'IMAGE ET DE LA SCENE
CLLE COGNITION, LANGUES, LANGAGE, ERGONOMIE
LISA UMR LIEUX, IDENTITES, ESPACES, ACTIVITES

Aide de l'ANR 413 632 euros
Début et durée du projet scientifique : décembre 2021 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.