CE38 - Interfaces : mathématiques, sciences du numérique – sciences humaines et sociales 2023

Analyser les modèles d'apprentissage profond pour extraire les informations typologiques d'une langue – DeepTypo

Résumé de soumission

Les modèles neuronaux ont permis des progrès spectaculaires en traitement de la langue (TAL) ces dernières années. Le projet DeepTypo se propose d'utiliser ces modèles et notamment les modèles multilingues pré-entraînés de la parole, pour concevoir des méthodes permettant d'extraire automatiquement des informations typologiques utiles pour la documentation et l’étude des langues (indices de complexité phonologique et morphosyntaxique, proximité entre langues...) à partir d'enregistrements audio.

Reposant sur une collaboration entre linguistes et chercheurs en TAL, le projet DeepTypo s'inscrit résolument dans le cadre des humanités numériques en abordant des questions fondamentales des deux communautés.

Elles aideront les linguistes dans leur travail de documentation et d'analyse des langues et notamment des langues « rares » et « peu dotées » en mettant à leur disposition de nouveaux outils d’analyse automatique. Au-delà de l’aspect « développement d’outils », le projet DeepTypo permettra surtout de montrer, en prenant pour exemple des problématiques d’actualité en créolistique (l’étude des créoles) et dialectologie des langues sino-tibétaines, que les représentations au cœur des réseaux de neurones peuvent être utilisées pour répondre à des questions fondamentales en linguistique.

L'approche mise en œuvre dans DeepTypo contribuera également à l’identification des limites des méthodes fondées sur l’affinage d’un modèle pré-entraîné. Cette méthode a permis de développer, à faible coût, des systèmes de TAL pour plusieurs langues et de nombreuses tâches et est souvent présentée aujourd’hui comme « LA » solution à tous les problèmes de TAL. L'identification des caractéristiques linguistiques capturées par les réseaux de neurones permettra de vérifier si c’est bien le cas : si un modèle de la parole n’est, par exemple, pas capable de capturer les tons d’une langue, il est plus que probable qu’il ne puisse pas être utilisé pour développer un système pour des langues tonales.

Pour réaliser cet objectif ambitieux, nous utiliserons des méthodes d'analyse des représentations neuronales pour interpréter et comprendre les décisions des réseaux de neurones et développerons celles-ci selon quatres axes originaux:

1. En nous appuyant sur la collaboration avec les différents partenaires du projet, nous chercherons à identifier des caractéristiques plus riches que celles considérées dans les travaux de l'état de l'art : si les travaux existants se sont concentrés sur des caractéristiques « simples » (genre du locuteur ou de la locutrice, langue de l'énoncé, ...), nous considérerons également des informations liées à la diversité des langues et aux caractéristiques linguistiques de celles-ci (inventaire phonémique, identification des langues tonales, ...).

2. En plus de méthodes d’analyse existantes (p.ex. les sondes linguistiques), nous développerons de nouvelles méthodes permettant de mesurer la similarité entre langues. À nouveau, une collaboration étroite entre linguistes et chercheurs en TAL sera essentielle pour définir une (ou des) similarité pertinente d’un point de vue linguistique.

3. Nous appliquerons les méthodes développées, aux 230 langues de la collection Pangloss (une archive de langues rares gérées par le LACITO) et à 15 créoles (collectés notamment par le LLL). Ces expériences à grande échelle nous permettront de tester les modèles pré-entraînés de l’état de l’art sur des langues présentant une grande variété de caractéristiques linguistiques rarement considérées dans les travaux de TAL.

4. Nous appliquerons ces méthodes pour des tâches d'aide à la documentation linguistique, une application qui n’a, jusqu’à présent, jamais été considérée.

Guillaume WISNIEWSKI (Laboratoire de Linguistique Formelle)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LLF Laboratoire de Linguistique Formelle
LLL Laboratoire Ligérien de Linguistique
LACITO Laboratoire de Langues & Civilisations à Tradition Orale
LISN Laboratoire Interdisciplinaire des Sciences du Numérique

Aide de l'ANR 460 008 euros
Début et durée du projet scientifique : - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.