DS0707 - Interactions humain-machine, objets connectés, contenus numériques, données massives et connaissance

Apprentissage de problèmes visuels complexes par modélisations profondes et structurées – DEEPVISION

Résumé de soumission

Grâce au progrès récent dans le domaine de la vision par ordinateur, de nouvelles applications ont vu le jour : reconnaissance de gestes en temps réel, détection de visages embarquée dans les appareils mobiles, etc. Nous sommes passés d'une thématique abordée dans les laboratoires de recherche, et appliquée en industrie dans des situations très maîtrisées, à des applications de la vie quotidienne.

Dans ce contexte, l’humain est sans doute l’”objet” dominant qui parait dans la majorité des vidéos. La conception de meilleurs algorithmes pour interpréter le comportement humain aurait un impact significatif sur un grand nombre de domaines d'application d'intérêt industriel. Les données vidéo peuvent servir pour comprendre l’utilisation des espaces publics, par exemple pour l’optimisation de la planification urbaine; la vision par ordinateur est un défi essentiel pour la santé, notamment pour l’aide aux personnes âgées en domicile; la vidéo dite de "première personne” (vidéo égocentrique) peut servir à rendre plus facile l’interaction avec le monde, qu’il s’agit de professionnels ou de particuliers; comprendre le comportement humain conduira également ê une meilleure interaction homme-machine et homme-robot.

Le projet DEEPVISION porte sur la conception d’algorithmes avancés étudiant la perception de l’humain dans les images et les vidéos : reconnaissance automatique d’activités individuelles ou collectives, de gestes, de postures etc.

Le travail proposé s’appuie en grande partie sur l’apprentissage automatique, une des clés de l’évolution récente dans le domaine de la vision par ordinateur. En effet, la disponibilité de grandes quantités de données étiquetées ou non étiquetés, combinée avec le développement de nouvelles ressources de calcul (les cartes graphiques de haute performance), a conduit à un bond inattendu des performances des méthodes basées sur l'apprentissage automatique. L'apprentissage de représentations profondes, dites “deep learning” a maintenant émergé comme une force majeure dans la vision par ordinateur.

Les résultats actuels indiquent une très bonne performance de l’apprentissage automatique lorsque les variations dans les données d'entrée sont raisonnables. Cela a été démontré pour des applications telles que la reconnaissance d'objets, la reconnaissance des gestes, et la classification de vidéos courtes. Cependant, le traitement de données caractérisées par des très grandes variations, inhérentes dans de nombreuses situations réalistes, est actuellement hors de portée. Cela concerne intrinsèquement des relations structurelles dans les données, comme par exemple les interactions personne-personne, les interactions personne-objet, les comportements dynamiques de longue durée, les objets déformables et articulés, etc. Ces propriétés sont généralement mieux traitées en utilisant une famille de méthodes appelées “modèles structurés”, souvent basées sur des représentations graphiques. Bien mieux efficace pour capturer les relations structurelles, ces modèles sont moins adaptés pour l'apprentissage automatique, ce qui rend difficile l’exploitation de quantités massives de données.

Nous proposons de concevoir de nouveaux modèles tirant avantage à la fois de la puissance des techniques d'apprentissage profond, et aussi de l'expressivité des modèles structurés, particulièrement adaptés ê la modélisation de données complexes.

Nous proposons un programme de recherche
- dirigé par un consortium de chercheurs mondialement reconnus en analyse de la vidéo et en apprentissage automatique;
- proposant un programme de recherche ambitieux avec un objectif de rupture scientifique;
- favorisant la collaboration internationale par des échanges doctoraux et post-doctoraux, des ateliers et des pratiques de développement distribuées.

Coordinateur du projet

INSA-Lyon, Laboratoire d'Informatique en Images et Systèmes d'information (Laboratoire public)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

University of Guelph
Simon Fraser University
INSA-Lyon, Laboratoire d'Informatique en Images et Systèmes d'information
UPMC/LIP6

Aide de l'ANR 447 920 euros
Début et durée du projet scientifique : août 2016 - 36 Mois

Liens utiles