DS0707 - Interactions des mondes physiques, de l'humain et du monde numérique

Techniques Innovantes pour l'Apprentissage Avancé de la Compositionnalité Distributionnelle – ITALODISCO

Résumé de soumission

Le projet de recherche proposé vise à modéliser la compositionnalité sémantique d'une manière entièrement automatique et non supervisée. Jusqu'à présent, la plupart des algorithmes pour l'acquisition automatique de la sémantique se sont concentrés sur des mots isolés. La modélisation du sens au-delà du niveau du mot - à savoir la question de la combinaison des mots individuels en unités plus importantes - est laissée dans une large mesure inexplorée. Ce projet propose une approche fondée sur l'usage, qui combine quelques techniques importantes et novatrices. Premièrement, nous nous appuyons sur des objets mathématiques appelés tenseurs - la généralisation de matrices - afin de modéliser correctement les co-occurrences multiples qui entrent en jeu lorsqu'il s'agit de la modélisation de la compositionnalité. En combinaison avec un modèle de factorisation latente, les tenseurs sont capables d'induire de la sémantique latente à partir de co-occurrences multiples, qui peut ensuite être utilisée pour la modélisation d'expressions compositionnelles. Deuxièmement, nous combinons une approche fondée sur les tenseurs avec des techniques d'apprentissage automatique, notamment les réseaux de neurones. Les réseaux de neurones ont récemment montré des performances impressionnantes sur des tâches de traitement du langage naturel. En les intégrant à notre approche fondée sur les tenseurs, nous cherchons à modéliser l'interaction multiple entre les différents mots d'une expression compositionnelle d'une manière plus profonde. Troisièmement, nous avons pour objectif de combiner les puissances de la sémantique distributionnelle et de la sémantique formelle dans une approche intégrée. En combinant les atouts des deux approches dans un cadre complémentaire, nous nous attendons à développer des algorithmes qui sont en mesure de saisir le sens de plus grandes entités textuelles d'une manière plus profonde et complexe. Le modèle proposé fournit une implémentation de compositionnalité qui est entièrement fondée sur l'usage: le modèle est construit automatiquement à partir de grands corpus de textes, et la performance des modèles est évaluée quantitativement.

Coordinateur du projet

Monsieur Tim Van De Cruys (Institut de Recherche en Informatique de Toulouse)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IRIT Institut de Recherche en Informatique de Toulouse

Aide de l'ANR 158 222 euros
Début et durée du projet scientifique : septembre 2014 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter