CE23 - Intelligence Artificielle

Induction de lexiques sémantiques pour l'interprétabilité et la diversité en traitement de textes – SELEXINI

Résumé de soumission

L'enthousiasme actuel pour le deep learning en TAL rencontre des limites. D'une part, l'opacité des modèles neuronaux rend leur comportement difficile à interpréter. D'autre part, l'évaluation via des benchmarks a tendance à ignorer les biais de ceux-ci, limitant la robustesse et la couverture des généralisations apprises, et engendrant une faible diversité dans le domaine en général. Le but du projet SELEXINI est de relever ces défis via le développement de **méthodes d'induction faiblement supervisée d'un lexique sémantique** à partir de corpus bruts, qui sera alors **intégré dans des modèles de traitement sémantique du texte**. Les unités lexicales sont considérées comme des abstractions utiles permettant à la fois de représenter des phénomènes linguistiques complexes (p.ex. la polysémie, la similarité, les expressions polylexicales) à l'aide d'étiquettes interprétables, tout en évitant la lourdeur et l'opacité des embeddings contextuels qui représentent chaque occurrence sous la forme d'un vecteur distinct. De plus, notre lexique induit combine des représentations continues (embeddings, clusters) et symboliques (étiquettes). Il couvre des unités mono- et polylexicales, leurs sens et leurs cadres sémantiques (arguments, rôles). Ainsi, nous proposons un nouveau point de vue sur l'interprétabilité "par construction", potentiellement complémentaire aux méthodes d'inspection de modèles neuronaux. L'évaluation du lexique induit se fera par intégration dans des tâches aval qui requièrent des informations sémantiques: compréhension de textes et identification d'expressions polylexicales. Le protocole expérimental évaluera la complémentarité entre le corpus et le lexique sur des phénomènes divers, ainsi que l'interprétabilité et l'utilité des résultats pour des utilisateurs non-experts. Cette approche devrait accroître l'interprétabilité des modèles et leur couverture sur des phénomènes diversifiés (p.ex. des éléments rares ou non vus dans un corpus d'entraînement).

Coordination du projet

Marie CANDITO (Laboratoire de Linguistique Formelle)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIFAT Laboratoire d'Informatique Fondamentale et Appliquée de Tours
ATILF Analyse et Traitement Informatique de la Langue Française (ATILF)
LLF Laboratoire de Linguistique Formelle
LISN Laboratoire Interdisciplinaire des Sciences du Numérique
LIS Laboratoire d'Informatique et Systèmes

Aide de l'ANR 678 190 euros
Début et durée du projet scientifique : mars 2022 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter