Techniques Innovantes pour l'Apprentissage Avancé de la Compositionnalité Distributionnelle – ITALODISCO
Le projet de recherche proposé vise à modéliser la compositionnalité sémantique d'une manière entièrement automatique et non supervisée. Jusqu'à présent, la plupart des algorithmes pour l'acquisition automatique de la sémantique se sont concentrés sur des mots isolés. La modélisation du sens au-delà du niveau du mot - à savoir la question de la combinaison des mots individuels en unités plus importantes - est laissée dans une large mesure inexplorée. Ce projet propose une approche fondée sur l'usage, qui combine quelques techniques importantes et novatrices. Premièrement, nous nous appuyons sur des objets mathématiques appelés tenseurs - la généralisation de matrices - afin de modéliser correctement les co-occurrences multiples qui entrent en jeu lorsqu'il s'agit de la modélisation de la compositionnalité. En combinaison avec un modèle de factorisation latente, les tenseurs sont capables d'induire de la sémantique latente à partir de co-occurrences multiples, qui peut ensuite être utilisée pour la modélisation d'expressions compositionnelles. Deuxièmement, nous combinons une approche fondée sur les tenseurs avec des techniques d'apprentissage automatique, notamment les réseaux de neurones. Les réseaux de neurones ont récemment montré des performances impressionnantes sur des tâches de traitement du langage naturel. En les intégrant à notre approche fondée sur les tenseurs, nous cherchons à modéliser l'interaction multiple entre les différents mots d'une expression compositionnelle d'une manière plus profonde. Troisièmement, nous avons pour objectif de combiner les puissances de la sémantique distributionnelle et de la sémantique formelle dans une approche intégrée. En combinant les atouts des deux approches dans un cadre complémentaire, nous nous attendons à développer des algorithmes qui sont en mesure de saisir le sens de plus grandes entités textuelles d'une manière plus profonde et complexe. Le modèle proposé fournit une implémentation de compositionnalité qui est entièrement fondée sur l'usage: le modèle est construit automatiquement à partir de grands corpus de textes, et la performance des modèles est évaluée quantitativement.
Coordinateur du projet
Monsieur Tim Van De Cruys (Institut de Recherche en Informatique de Toulouse)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
IRIT Institut de Recherche en Informatique de Toulouse
Aide de l'ANR 158 222 euros
Début et durée du projet scientifique :
septembre 2014
- 36 Mois