Apprentissage de Représentations de Haut-niveau pour Tenseurs de Grande Dimension – EVEREST
EVEREST
Apprentissage de représentations de haut-niveau pour tenseurs de grande dimension.<br />
Objectifs
La direction générale du projet est de définir de nouveaux modes de représentation pour les données multi-relationnelles, avec un intérêt particulier pour les bases de connaissances, ces graphes orientés étiquetés pour lesquels on associe des concepts aux nœuds et des relations aux arcs. L'objectif principal d'EVEREST est de proposer des méthodes pour modéliser de telles données, surtout quand leurs dimensions sont très grandes (millions de nœuds et milliers de type de relations), afin de les valoriser c'est-à dire les visualiser, les compléter, et les résumer. Par ailleurs, la connexion de ces bases de connaissances au texte est aussi étudiée, sur des problématiques telles que l'extraction d'information, soit l'ajout automatique d'informations aux bases grâce au texte.<br />
Le projet EVEREST se situe au confluent de plusieurs disciplines, en particulier, l'apprentissage machine, l'algèbre multilinéaire, l'analyse de données pour les méthodes et l'ingénierie des connaissances, la bio-informatique, le web sémantique et les systèmes de recommandation pour les domaines applicatifs. Nos premières recherches ont portées sur la conception de nouveaux modèles statistique pour modéliser les données relationnelles. Ceux-ci sont basées sur des avancées en optimisation stochastique, réseaux de neurones et factorisation de matrices principalement.
Le projet EVEREST a déjà apporté des avancées notamment en proposant une méthode capable de modéliser des données relationnelles de très grandes tailles (comme la base de connaissance Freebase avec jusqu'à 1 million de concepts et 25k types de relations). Sur ces données, cette nouvelle méthode est plus performante en prédiction de liens que les méthodes existantes. Cette approche très prometteuse va être à présent développée et étudiée plus avant. Parallèlement à ces travaux, des premiers résultats en extraction d'information (afin de connecter le texte aux bases de connaissances) ont été obtenus. Un modèle, conçu dans le cadre d'EVEREST, a participé à la compétition d'extraction d'information depuis les textes biomédicaux (BioNLP 2013) et s'est classée 6e sur 12 participants internationaux. Cette méthode a été améliorée depuis cette participation et peut à présent dépasser les performances des meilleurs systèmes.
Les travaux futurs vont se développer selon deux axes: (1) améliorer l'approche proposée pour modéliser les données relationnelles afin de lui offrir une meilleure expressivité une la capacité de mieux représenter les données, (2) poursuivre les travaux en extraction d'information afin de permettre une meilleure intégration entre bases de connaissances et texte brut.
Articles (journaux et actes de conférences):
* Irreflexive and Hierarchical Relations as Translations (2013).
Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston and Oksana Yakhnenko. at the ICML*2013 Workshop on Structured Learning: Inferring Graphs from Structured and Unstructured Inputs (poster), Atlanta, USA, June 2013.
* Biomedical Event Extraction by Multi-class Classification of Pairs of Text Entities (2013).
Xiao Liu, Antoine Bordes and Yves Grandvalet. in Proceedings of BioNLP Shared Task 2013 Workshop, ACL publishing, Sofia, Bulgaria. 2013.
* A Semantic Matching Energy Function for Learning with Multi-relational Data (2013).
Antoine Bordes, Xavier Glorot, Jason Weston, and Yoshua Bengio. in Machine Learning. Springer, DOI: 10.1007/s10994-013-5363-6, May 2013.
Interventions orales:
* Présentation invitée: Traiter des données relationnelles grâce à l'apprentissage automatique.
Antoine Bordes. Plateforme IA, Lille, Juillet 2013.
* Participation d'Alberto Garcia-Duran à l'école d'été Machine Learning Summer School, Tübingen, août 2013.
D'énormes quantités de données structurées et relationnelles sont générées dans de nombreux domaines, allant du Web Sémantique à la bioinformatique, en passant par les systèmes de recommandation. Les bases de connaissances, telles que Freebase, WordNet ou GeneOntology, sont devenues des outils indispensables de stockage, de traitement et d'accès à l'information. Cependant, celles-ci s’avèrent incomplètes, imprécises et de trop grandes dimensions pour être utilisés aussi efficacement et largement qu'elles ne le pourraient. Par conséquent, il est nécessaire de concevoir des méthodes permettant de résumer, compléter ou fusionner ces grandes bases de données. Ce constat motive le projet présenté ici. Les bases de connaissances citées ci-dessus pouvant être représentés par des tenseurs, notre projet vise à construire des méthodes de factorisation tensorielle permettant d’apprendre des représentations compactes. La plupart des approches existantes ne sont pas adaptées en raison des spécificités des données considérées, à la fois de grande dimension et très creuses (i.e. de nombreuses entrées du tenseur ne sont pas observées). Nous proposons de développer des approches basées sur l'apprentissage de réseaux de neurones à architecture profonde (Deep Learning). Cette technique émergente en apprentissage automatique a obtenu des résultats intéressants pour différentes tâches de grande dimension en vision par ordinateur ou en traitement du langage naturel. Elle possède donc des atouts qu'il reste à faire valoir dans le cadre de la factorisation tensorielle. La première phase du projet consistera à développer et évaluer cette technique pour la dérivation de représentations de haut-niveau pour tenseurs. Dans une deuxième phase, nous évaluerons la pertinence de ces représentations sur deux problèmes importants: la prédiction de lien et l’alignement de bases de connaissances. Ces deux tâches permettent une évaluation objective et sont centrales pour les applications. La prédiction de lien, qui vise à découvrir des relations existantes qui n'ont pas été observées, est cruciale en bioinformatique ou en recommandation. L’alignement, qui est utilisé pour fusionner des bases de connaissance hétérogènes, est essentiel en Web Sémantique. Pour ce second problème, nous développerons des approches prenant en compte les incertitudes et les imprécisions des bases de connaissance fusionnées. L'objectif global du projet EVEREST est donc de permettre une avancée dans le traitement statistique des bases de données relationnelles au travers de la factorisation et de la fusion de grands tenseurs. L'amélioration de la lisibilité, de l'exhaustivité et la fiabilité de ces grandes bases de connaissances de grandes échelles est un enjeux important pour de nombreuses organisations, mais aussi pour les services et l'industrie (Web sémantique, applications biomédicales, etc.). Pour cette raison, Xerox Research Center Europe soutient ce projet et fournira des données et son expertise tout en facilitant un possible transfert industriel. Ce projet contribue également aux prospectives de recherche de son principal partenaire, Heudiasyc, en s'intégrant aux axes thématiques du programme LabEx « Maîtrise de Systèmes de Systèmes Technologiques » qui a débuté en 2011.
Coordination du projet
Sébastien Destercke (Heuristique et Diagnostic des Systèmes Complexes)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
Heudiasyc Heuristique et Diagnostic des Systèmes Complexes
Aide de l'ANR 217 015 euros
Début et durée du projet scientifique :
December 2012
- 48 Mois