CE38 - Révolution numérique : rapports au savoir et à la culture

La documentation computationnelle des langues à l'horizon 2025 – CLD2025

Résumé de soumission

L'objectif principal du projet CLD2025 est de faciliter la résolution de l’urgence que constitue la documentation des langues en danger, en exploitant le potentiel des méthodes informatiques. Une avancée décisive est maintenant possible : les outils fondés sur l’apprentissage machine (tels que les réseaux neuronaux artificiels et les modèles bayésiens) se sont améliorés à un point tel qu'ils peuvent aider efficacement à effectuer des tâches d'annotation linguistique telles que la transcription automatique des enregistrements audio, la génération automatique de gloses orales ou écrites, et la découverte automatique d’unités morphologiques. Avec ces outils, il est beaucoup plus facile d'obtenir une documentation complète de la diversité linguistique du monde, qui se réduit comme peau de chagrin, qu’avec le cadre classique d’un processus où le travail est effectué manuellement. Par exemple, la transcription manuelle de 50 heures de discours peut prendre des centaines d'heures de travail, créant un goulot d'étranglement dans le flux de travail de documentation linguistique. Une autre tâche clé, appelée en linguistique la production de gloses interlinéaires (en un mot : traduction/annotation mot à mot), prend encore plus de temps et est en outre difficile à réaliser manuellement avec le niveau de cohérence requis. Les modèles créés par l'apprentissage machine peuvent aider à accomplir ces tâches longues et compliquées. Mais le traitement du langage naturel (NLP) reste peu utilisé dans la documentation linguistique pour diverses raisons, notamment parce que la technologie est encore nouvelle (et évolue rapidement), que les interfaces conviviales sont encore en cours de développement ; il existe peu d'études de cas démontrant une utilité pratique dans un environnement à faibles ressources. Les linguistes de terrain continuent de s'appuyer généralement sur des méthodes manuelles tout au long du processus de documentation. L'objectif du projet CLD2025 est donc de permettre la mise en œuvre de ces techniques à moyen terme (d'ici 2025) en développant une co-construction de modèles et d'outils par des linguistes de terrain et des linguistes informatiques, et le développement d'interfaces et de systèmes permettant une utilisation réelle par les linguistes de terrain.
Nous nous appuyons sur les réalisations du projet BULB en termes de corpus et de modes d'acquisition, ainsi que sur le développement de modèles de transcription et de segmentation. Nous ne développons pas ici des corpus, mais nous nous concentrons plutôt sur la meilleure façon d'exploiter au mieux les corpus existants. Nous abordons les problèmes de traitement automatique (transcription de phonèmes et de tons, découverte d'unités, gloses automatiques), dont certains sont originaux (transcription tonale, gloses automatiques), en les validant sur des langues en danger de natures très diverses : Bantu Mboshi C25, Mande Kakabe, une langue sino-tibétaine, Yongning Na (Mosuo), et 3 langues Nakh-Daghestaniennes, Khinalug, Kryz (Kryts), Budugh. Nous effectuerons des travaux pour tirer parti des résultats du traitement automatique afin d’améliorer le travail linguistique : les mécanismes et les résultats du traitement automatique de la parole et du langage seront utilisés pour explorer les questions phonétiques-phonologiques sur les niveaux segmentaux, supra-segmentaux et tonaux des langues traitées dans le projet.
Enfin, dès le début du projet, l'accent sera mis sur la convivialité des outils et des modèles développés. Ce point met en évidence l'aspect fondamentalement interdisciplinaire du travail effectué ici par les informaticiens et les linguistes de terrain. Une linguiste de terrain reconnue travaillera à plein temps sur le projet, et participera, par son expérience et son expertise, à la définition, au développement et à l'évaluation des différents systèmes développés dans le projet.

Coordination du projet

Gilles ADDA (Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LACITO Laboratoire de Langues & Civilisations à Tradition Orale
LIMSI Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
LIG Laurent Besacier
KIT Karlsruher Institut für Technologie (KIT) / Institut für Anthropomatik (IFA)
LPP Laboratoire de Phonétique et Phonologie
EmpSprWiss Universität Frankfurt / Institut für Empirische Sprachwissenschaft

Aide de l'ANR 464 666 euros
Début et durée du projet scientifique : février 2020 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter