CE23 - Intelligence artificielle et science des données 2023

Biais inductifs pour des modèles compositionnels du langage naturel – COMPO

Résumé de soumission

En traitement automatique des langues, de grands modèles de langue à apprentissage profond ont contribué à révolutionner le domaine ces dernières années. Toutefois on observe que ces modèles connaissent des ratés sur des cas où les humains n'ont pas de problèmes particuliers.

Le projet COMPO propose de concevoir de nouveaux modèles dotés de meilleures capacités de généralisation et plus économes en paramètres et en besoin de calcul. Le projet porte sur la tâche d'interprétation sémantique compositionnelle du langage naturel, qui est celle pour laquelle on a le mieux identifié les faiblesses des grands modèles de langue contemporains. Le projet propose d'introduire dans la modélisation des biais inductifs issus de la tradition scientifique en linguistique et en sciences cognitives.

Les biais inductifs que nous considérons sont d'une part l'introduction de biais de structure inspirés par la linguistique. Il y a une très forte tradition en linguistique qui propose de calculer le sens à partir d'une structure syntaxique. D'autre part, en nous inspirant de la tradition en sciences cognitives, on pense que l'interprétation sémantique chez l'humain est en relation avec les propriétés de la mémoire de travail : notre mémoire de travail ne peut pas retenir facilement des séquences
d'informations non structurées, au contraire elle doit composer l'information pour lui donner une structure et un sens.

Le projet s'inscrit dans une tendance actuelle qui cherche à injecter des aspects théoriques dans les modèles d'intelligence artificielle qui sont pour la plupart issus de succès applicatifs. Vu dans l'autre direction, le projet permet aussi de mettre à l'épreuve et de faire passer à l'échelle des propositions théoriques qui sont traditionnellement évaluées à plus petite échelle.

Benoît Crabbé (Laboratoire de Linguistique Formelle)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LLF Laboratoire de Linguistique Formelle
LPC Laboratoire de psychologie cognitive
LIG Laboratoire d'Informatique de Grenoble
LIS Laboratoire d'Informatique et Systèmes

Aide de l'ANR 528 537 euros
Début et durée du projet scientifique : décembre 2023 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.