Accroître la vitalité et la visibilité numérique des langues de France : descriptions linguistiques et corpus annotés – DIVITAL
Les ressources numériques, telles que les lexiques, les dictionnaires et les corpus de textes, (bruts ou enrichis d'annotations linguistiques), sont essentielles pour une meilleure inclusion des langues régionales et minoritaires dans le monde numérique. Pourtant, le fossé entre les langues bien dotées en ressources (moins de dix langues) et les langues "peu dotées" reste important. Cet écart est également documenté en France, où l'on constate que les langues régionales sont très peu pourvues en ressources et outils numériques, par rapport au français. Dans ce projet, nous nous focaliserons sur quatre langues peu dotées de France : l'alsacien, le corse, l'occitan et le poitevin-saintongeais.
D'un point de vue théorique, le projet intégrera et réévaluera les connaissances linguistiques sur ces langues, en comparaison avec d'autres langues proches. L'objectif sera de produire des descriptions complètes et actualisées, qui pourront être reprises dans des guides d’annotation.
Il s’agira également de sensibiliser les chercheurs et chercheuses en linguistique et en traitement automatique des langues aux problématiques des langues régionales de France, en augmentant le volume de ressources annotées et non-annotées disponibles. Les corpus intégreront des genres qui s’approchent de ou transcrivent la langue orale, par exemple des pièces de théâtre ou des ethnotextes narratifs, ainsi que des documents parallèles traduits. Les données étiquetées prendront la forme de corpus « Universal Dependencies » (UD). L'utilisation du système UD est motivée par sa large adoption par la communauté du traitement automatique des langues et par les nombreux outils et recommandations déjà disponibles.
Enfin, le projet étudiera comment partager et transférer les expériences et outils issus du projet entre langues. Cela devrait permettre aux langues les moins avancées de progresser et de bénéficier ainsi de l'expérience des autres pour accélérer leur développement. Au-delà des réalisations concrètes et immédiates pour les langues représentées dans ce projet, l'objectif est également de construire des méthodologies qui peuvent être utilisées et appliquées à d'autres langues moins dotées. C'est aussi un moyen de construire une communauté de chercheuses et chercheurs qui travaillent sur les langues moins dotées de France et des régions voisines.
Coordination du projet
Delphine BERNHARD (Linguistique, Langues et Parole (EA 1339 - UR 1339 depuis 01.01.2020))
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LiLPa Linguistique, Langues et Parole (EA 1339 - UR 1339 depuis 01.01.2020)
FORELLIS FORMES ET REPRESENTATIONS EN LINGUISTIQUE, LITTERATURE ET DANS LES ARTS DE L'IMAGE ET DE LA SCENE
CLLE COGNITION, LANGUES, LANGAGE, ERGONOMIE
LISA UMR LIEUX, IDENTITES, ESPACES, ACTIVITES
Aide de l'ANR 413 632 euros
Début et durée du projet scientifique :
décembre 2021
- 48 Mois