CE38 - Révolution numérique : rapports au savoir et à la culture

Induction de grammaires descriptives à partir de corpus – Autogramm

Résumé de soumission

Le but de ce projet est d'automatiser, dans la mesure du possible, l'extraction de grammaires descriptives et de descriptions grammaticales à partir de corpus annotés, à des fins d'études linguistiques et typologiques. Nous visons des descriptions qui 1) mettent en évidence les principales propriétés du corpus (et par extension de la langue ou de la variété que le corpus représente); 2) sont facilement compréhensibles par un linguiste; 3) peuvent être visualisées par des textes, des diagrammes ou des tableaux, ainsi que des bases de données grammaticales généralement orientées vers des études comparatives et typologiques ; et 4) dont la taille et la précision peuvent être adaptées aux besoins de l'utilisateur. Comme ces descriptions grammaticales sont induites à partir d'un corpus, elles contiennent des informations quantitatives associées à chaque observation faite sur ce corpus, ainsi que des exemples pertinents extraits de celui-ci.

Nos descriptions grammaticales seront extraites de deux types de corpus, disponibles pour un large éventail de langues et contenant des informations riches permettant d’inférer des propriétés structurelles d'une langue :
- Les treebanks de la collection Universal Dependencies [UD] (une centaine de langues, 12 millions de mots). Un treebank est un corpus annoté où chaque phrase est associée à un arbre syntaxique ; UD est basée sur la syntaxe de dépendance, où les mots sont liés par des relations de dépendance.
- Les collections Pangloss et CorpOrAn (hébergées par les laboratoires Lacito et Llacan), deux des rares archives internationales visant à préserver le patrimoine linguistique mondial. Elles contiennent des corpus oraux de langues peu dotées collectés par des linguistes de terrain, transcrits, traduits, segmentés en morphèmes et glosés. Plusieurs langues de ces archives seront utilisées pour l'enrichissement manuel et automatique des gloses avec des annotations syntaxiques.

Les principaux objectifs que nous poursuivons sont:
1. Extraire d'un corpus un ensemble de motifs grammaticaux ou constructions
a. en tenant compte de la fréquence des phénomènes observés,
b. à travers une méthodologie inductive, permettant la découverte de motifs qui n'apparaissent pas nécessairement dans les grammaires existantes;
2. Ordonner la liste des motifs en termes de pertinence;
3. Comparer les ensembles de motifs observés dans les différents corpus, représentant des langues typologiquement diverses, afin de construire des généralisations typologiques sur les différences et l'identité structurelle entre différents ensembles de motifs;
4. Proposer une chaîne de traitement efficace pour le développement simultané d'un treebank et d'une grammaire;
5. Développer des treebanks et des grammaires descriptives pour une douzaine de langues grâce à notre chaîne de traitement. Certaines des langues que nous étudierons sont en danger (tuwari et zaar) ou menacées (salar, sungwadia, ye'kawana).
6. Comparer les langues par des observations tenant compte de la fréquence des phénomènes, qui nous conduisent à une typologie quantitative et inductive, c'est-à-dire tenant compte des spécificités de la langue et des propriétés induites par l'analyse des données.

Le projet réunit différents spécialistes: des linguistes de terrain disposant de corpus des langues dont ils sont spécialistes et dont ils souhaitent développer de nouvelles descriptions; des linguistes intéressés par la comparaison et la typologie des langues; des spécialistes du développement de corpus annotés et plus particulièrement des treebanks syntaxiques, ayant une connaissance approfondie du développement de grammaires formelles; et enfin des chercheurs en traitement du langage naturel intéressés par l'apprentissage automatique, la réécriture de graphes et le développement d'outils pour le développement de ressources linguistiques et l'étude des langues.

Coordination du projet

Sylvain Kahane (Modèles, Dynamiques, Corpus)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

MoDyCo Modèles, Dynamiques, Corpus
LACITO Laboratoire de Langues & Civilisations à Tradition Orale
LISN LISN Laboratoire Interdisciplinaire des Sciences du Numérique
Inria Nancy Grand Est Centre de Recherche Inria Nancy - Grand Est

Aide de l'ANR 525 941 euros
Début et durée du projet scientifique : - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter