Apprentissage par transfert transmodal pour l'analyse syntaxique automatique du français parlé spontané – SynPaX
Un corpus arboré est une collection de phrases annotées avec leur structure syntaxique sous la forme d'abres de dépendances ou d'arbres en constituants. De telles ressources sont importantes pour les études linguistiques fondées sur les usages. Or, la construction de corpus arborés est particulièrement coûteuse ce qui rend les approches basées sur l'analyse  syntaxique automatique (la tâche consistant à prédire un arbre syntaxique pour une phrase donnée) et l'apprentissage automatique très attrayantes. Par ailleurs, si de tels corpus sont disponibles pour de multiples domaines du français écrit, ils sont rares pour le cas du français parlé spontané. 
Dans ce projet, nous nous plaçons dans le cadre de l'analyse syntaxique automatique du français parlé spontané. Les recherches actuelles en analyse syntaxique de la parole utilisent majoritairement des transcriptions de référence comme entrée,  ce qui les rend peu robustes aux erreurs des systèmes de reconnaissance de la parole (ASR). Par ailleurs, les transcriptions de la parole sont abstractions où les informations prosodiques ne sont plus accessibles.
Nous proposons d'investiguer des approches permettant de réaliser de manière conjointe la reconnaissance automatique de la parole et l'analyse syntaxique automatique avec un double objectif (i) de permettre à l'analyseur syntaxique d'utiliser les informations prosodiques présentes dans le signal de la parole (ii) de permettre à l'ASR d'utiliser des informations syntaxiques pour améliorer sa désambiguïsation. Pour cela, nous proposons de concevoir de nouvelles architectures d'analyse syntaxique automatique fondées sur
- des méthodes d'apprentissage transmodal, de manière à bénéficier de données partiellement annotés écrites ou orales 
- des méthodes basées sur la fusion de représentations préentraînées acoustiques (wav2vec) et linguistique (FlauBERT/BERT)
Nous évaluerons nos propositions d'une part  sur les corpus arborés de l'oral en français actuellement disponible (Orféo, rhapsodie, paris-stories, ODIL-syntax). D'autre part nous mettrons en oeuvre des protocoles d'évaluation extrinsèque permettant de vérifier si les systèmes que nous développons sont utiles pour des tâches de traitement de la parole telles que la traduction de la parole ou la compréhension de la parole (SLU, spoken language understanding).
Coordination du projet
Maximin COAVOUX (Laboratoire d'Informatique de Grenoble)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
					
						
							LIG Laboratoire d'Informatique de Grenoble
						
					
				
				
					Aide de l'ANR 259 539 euros
				
				Début et durée du projet scientifique :
					février 2024
						- 48 Mois