Apprendre l'intégration de données, des entités aux signaux – LearnI
Avec l'arrivée de la "science des données", l'apprentissage statistique change la prise de décisions dans beaucoup de domaine, tels que la santé ou les affaires. Cependant, point de friction est souvent, non pas dans l'analyse statistique, mais dans la combinaison de données de différentes natures ou à partir de différentes sources. En effet, l'intégration de données s'appuie encore fortement sur l'intervention humaine. Il faut utiliser des techniques de base de données relationnelles pour représenter et transformer des données de différentes nature, en utilisant les entités quelles ont en commun. Ces représentations et ces opérations sont fondamentalement discrètes, ce qui rend l'apprentissage statistique difficile: les symboles n'expriment pas facilement l'information jointe, par exemple en cas d'ambigüités; l'optimisation des règles logiques utilisée sur les données symboliques donne des problèmes intractables car combinatoires. Des succès récents en traitement automatique de la langue montrent que si les symboles sont représentés par des vecteurs, l'apprentissage statistique peut comprendre de l'information complexe, en particulier grâce à l'apprentissage profond.
Une nouvelle approche de l'intégration de données peut remplacer l'effort humain dans l'intégration de données: de bâtir sur des formulation continues, plutôt que des représentations discrètes et des opérations logiques, peut permettre d'optimiser l'assemblage de données. Pour cela, il faut de nouvelles architectures d'apprentissage statistique.
La difficulté est de représenter des données de natures complètement différente dans la même espace vectoriel, et cependant de les transformer différemment. Pour cela, nous proposons de:
1) utiliser les régularités statistiques des bases de données pour plonger les entrées symboliques dans des espaces vectoriels
2) créer des modèles d'apprentissage statistique qui assemble les différentes sources de données avec des transformations continues
3) faciliter le transfert des représentations entre bases de données avec des sujets liés.
D'automatiser l'intégration de données stimulera grandement les applications de la science des données. En effet, beaucoup de sources de données ne sont pas utilisées car leur coût d'intégration est trop élevé. Ceci est particulièrement vrai pour la réutilisation de données publiques ou assemblage de données en santé publique.
Notre programme de recherche adaptera aux données relationnelles les outils d'apprentissage statistiques qui extraient et transforment des représentations continues. Celles-ci devront capturer les relations entre symboles, mais aussi les valeurs, par exemple les attributs numériques des données. Pour cela nous utiliserons des "modèles neuronaux de base de données", qui modélisent la structure locale d'une base de donnée. L'alignement à travers différentes bases sera traité comme un problème d'adaptation de domaine, utilisant des outils de correspondance entre distribution. Bâtir des tâches d'apprentissage supervisés à partir de ces représentations nécessitera de fortes non linéarité, tels que des mécanismes de barrière, pour distinguer des entrées de différente nature représentées dans le même espace vectoriel. Pour faciliter le transfert, nous nous focaliserons sur des représentations ou des transformations des données qui peuvent facilement être réutilisées, comme l'architecture "transformer" qui a récemment révolutionné le traitement automatique de la langue.
Pour créer les très gros corpus nécessaires à apprendre de bonnes représentations, nous aspireront des données publiques. Les représentations correspondantes captureront de la connaissance générale et aideront à assembler des données sur des sujets liés. Nous focaliseront nos applications aux problèmes de la santé publique, par exemple pour des études épidémiologiques.
Coordination du projet
Gael Varoquaux (Centre de Recherche Inria Saclay - Île-de-France)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
Inria Saclay - Ile-de-France - équipe PARIETAL Centre de Recherche Inria Saclay - Île-de-France
Aide de l'ANR 489 608 euros
Début et durée du projet scientifique :
août 2020
- 48 Mois