DS0707 - Interactions humain-machine, objets connectés, contenus numériques, données massives et connaissance

Apprentissage de représentations pour modéliser la dynamique des traces d'interaction complexes – LOCUST

Résumé de soumission

Les interactions entre humains et services web, objets mobiles, ou capteurs intelligents génèrent des flots de données complexes et dynamiques. Ces traces utilisateurs peuvent être assimilées à des séquences d'observations d'événements, de mesures ou de contenus sémantiques, auxquelles les informations spatiales de géolocalisation viennent souvent s'ajouter. L'analyse de ces données dans leurs dimensions spatiales, sémantiques et temporelles soulève plusieurs défis. Parce que ces traces sont très diverses et en grande quantité, il est naturel de se tourner vers l'apprentissage statistique pour cette analyse. Toutefois, les méthodes et algorithmes actuels de l'apprentissage ne sont pas adaptés à la complexité et la variabilité de ces données.

L'objectif premier de Locust est de développer des modèles et algorithmes permettant de modéliser et analyser ces traces complexes afin de résoudre des tâches génériques de l'apprentissage automatique, pour des applications cibles. Nous développerons des modèles basés sur l'apprentissage de représentations, domaine en pleine expansion de l'apprentissage statistique. Deux applications cibles, portant d'une part sur la diffusion d'information sémantique et la recommandation temporelle, et, d'autre part, sur la mobilité urbaine, serviront de cadres applicatifs. L'apprentissage de représentations permet d'exhiber les facteurs latents sous-jacents à la génération des données. Le défi ici est d'apprendre ces facteurs pour des processus dynamiques associés à des séquences spatio-temporelles multiples. La première tâche de Locust est dédiée au développement de modèles pour l'apprentissage de représentations de données spatio-temporelles. Nous exploiterons en particulier les représentations issues de l'apprentissage profond, des réseaux de neurones, des factorisations matricielles et de l'apprentissage de dictionnaires. Nous revisiterons les problématiques standards de l'apprentissage automatique pour les données spatio-temporelles associées aux traces utilisateurs. La deuxième tâche du projet a pour but d'intégrer, dans les modèles et représentations étudiés dans la première tâche, des connaissances a priori. Pour cela, nous proposons une méthodologie fondée sur l'expression des connaissances liées aux phénomènes de diffusion spatio-temporelle par des équations de diffusion et de réaction-diffusion. Enfin, une troisième tâche est dédiée à la collecte de corpus de données pour l'évaluation de nos modèles sur les deux applications retenues. Cette évaluation sera conduite "off-line" sur les jeux de données collectés, et "on-line" sur la plate-forme d'un des partenaires du projet pour la première application (diffusion d'information sémantique et recommandation temporelle).

Le consortium est composé de deux partenaires académiques, UPMC-LIP6-Paris et UJF-LIG-Grenoble, et d'un partenaire industriel, Deezer. Le LIP6 et le LIG sont des spécialistes de l'apprentissage automatique et de la science des données. Ils sont de plus complémentaires dans la mesure où le LIP6 a une forte expertise dans les méthodes d'apprentissage de représentations, fondées sur les réseaux de neurones et les méthodes algébriques, et où le LIG a une forte expertise dans les processus temporels, l'analyse de séries temporelles multiples et les modèles probabilistes latents. Les deux équipes travaillent depuis plusieurs années sur l'analyse de données sociales (recommandation, prédiction de diffusion de contenu, etc.). Elles collaborent avec des partenaires académiques et industriels sur le domaine de la mobilité urbaine. Le LIP6 et le LIG contribueront aux aspects théoriques et algorithmiques du projet. Deezer agira en tant que fournisseur de données et utilisateur final pour la validation des prototypes développés dans le cadre du projet. Les données de mobilité urbaine seront fournies par des partenaires extérieurs au projet avec lesquels des collaborations étroites existent par ailleurs (VEDECOM, STIF, IFSTTAR).

Coordination du projet

Patrick GALLINARI (Universite Pierre et Marie Curie - Laboratoire d'Informatique de Paris 6)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIG Laboratoire d'informatique de Grenoble
DEEZER
UPMC - LIP6 Universite Pierre et Marie Curie - Laboratoire d'Informatique de Paris 6

Aide de l'ANR 487 278 euros
Début et durée du projet scientifique : septembre 2015 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter