CE23 - Intelligence artificielle et science des données 2023

Apprentissage par transfert transmodal pour l'analyse syntaxique automatique du français parlé spontané – SynPaX

Résumé de soumission

Un corpus arboré est une collection de phrases annotées avec leur structure syntaxique sous la forme d'abres de dépendances ou d'arbres en constituants. De telles ressources sont importantes pour les études linguistiques fondées sur les usages. Or, la construction de corpus arborés est particulièrement coûteuse ce qui rend les approches basées sur l'analyse syntaxique automatique (la tâche consistant à prédire un arbre syntaxique pour une phrase donnée) et l'apprentissage automatique très attrayantes. Par ailleurs, si de tels corpus sont disponibles pour de multiples domaines du français écrit, ils sont rares pour le cas du français parlé spontané.

Dans ce projet, nous nous plaçons dans le cadre de l'analyse syntaxique automatique du français parlé spontané. Les recherches actuelles en analyse syntaxique de la parole utilisent majoritairement des transcriptions de référence comme entrée, ce qui les rend peu robustes aux erreurs des systèmes de reconnaissance de la parole (ASR). Par ailleurs, les transcriptions de la parole sont abstractions où les informations prosodiques ne sont plus accessibles.

Nous proposons d'investiguer des approches permettant de réaliser de manière conjointe la reconnaissance automatique de la parole et l'analyse syntaxique automatique avec un double objectif (i) de permettre à l'analyseur syntaxique d'utiliser les informations prosodiques présentes dans le signal de la parole (ii) de permettre à l'ASR d'utiliser des informations syntaxiques pour améliorer sa désambiguïsation. Pour cela, nous proposons de concevoir de nouvelles architectures d'analyse syntaxique automatique fondées sur
- des méthodes d'apprentissage transmodal, de manière à bénéficier de données partiellement annotés écrites ou orales
- des méthodes basées sur la fusion de représentations préentraînées acoustiques (wav2vec) et linguistique (FlauBERT/BERT)

Nous évaluerons nos propositions d'une part sur les corpus arborés de l'oral en français actuellement disponible (Orféo, rhapsodie, paris-stories, ODIL-syntax). D'autre part nous mettrons en oeuvre des protocoles d'évaluation extrinsèque permettant de vérifier si les systèmes que nous développons sont utiles pour des tâches de traitement de la parole telles que la traduction de la parole ou la compréhension de la parole (SLU, spoken language understanding).

Maximin COAVOUX (Laboratoire d'Informatique de Grenoble)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LIG Laboratoire d'Informatique de Grenoble

Aide de l'ANR 259 539 euros
Début et durée du projet scientifique : février 2024 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.