CONTINT - Contenus numériques et interactions

Recherche interactive d’image par commande visuelle – VISIIR

Résumé de soumission

Le projet VISIIR explore de nouvelles méthodes pour l'annotation sémantique d'images. Cette thématique a été largement étudiée lors de la dernière décennie, du fait du très grand nombre de d’applications qui en découlent, dans des domaines aussi variés que la recherche d’information, la vision artificielle, le traitement d’images ou encore l’intelligence artificielle. L’annotation sémantique d’images vise à prédire un concept sémantique à partir du contenu visuel d’une image. Combler le fossé sémantique entre les données visuelles brutes et les concepts est le but principal poursuivi par les chercheurs du domaine. Les méthodes d’apprentissage supervisé nécessitent un grand nombre de données annotées pour être efficaces. En recherche d’information interactive (CBIR), l’utilisateur introduit une requête image, et la recherche s’effectue avec des boucles d’interaction pour affiner le concept sous-jacent recherché.
Le projet VISIIR a pour ambition d’explorer de nouvelles méthodes d’apprentissage interactif pour l’annotation sémantique. L’originalité de notre soumission se situe à trois niveaux :

• Mise au point d’un système de recherche et d’annotations d’images interactif exploitant un eye-tracker. Une spécificité majeure du projet est d’utiliser les dernières générations d’eye-trackers pour améliorer les modèles de vision et d’apprentissage mis au point par les différents partenaires académiques.
• Nouveau paradigme pour l'apprentissage de représentations visuelles. Nous proposons une nouvelle manière de formuler l’apprentissage, combinant techniques supervisées et interactives.
• Filtrage du web pour une application d’annotation de données images de recettes de cuisine. Les nouvelles méthodes développées dans VISIIR seront validées sur une application web de recherche de catégories d’illustration de plats cuisinés.

En terme de méthodologie, le premier verrou relatif à l’annotation sémantique étudié dans ce projet concerne les modèles de représentation visuelle des données. Afin d’aller au-delà des méthodes de l’état de l’art en traitement d’image, nous proposons de mettre en œuvre de nouvelles représentations biologiquement inspirées. Une idée maîtresse est de produire une représentation hybride, combinant des modèles de saillance visuelle et des réseaux profonds appris de manière non supervisée.

Dans la seconde partie de VISIIR, nous développons de nouveaux schémas d’apprentissage interactif, tirant profit de la source d’information supplémentaire fournie par l’eye-tracker. Des avancées sont attendues aussi bien en ce qui concerne l'apprentissage des représentations visuelles que la mise en place de nouveaux types d’Interaction avec l'utilisateur basés sur les spécificités de l'eye-tracker.

Enfin, un axe fort de VISIIR est l’évaluation systématique des méthodes d’annotation proposées sur les benchmark classiques de la communauté, mais aussi dans le cadre d’une application de filtrage du web dédiée à la recherche de contenu gastronomique. Cette tâche de classification (dite à grain fin car elle ne concerne que des images d’un thème précis) a pour objectif d’extraire des images pertinentes de recettes de cuisine. Un aspect méthodologique développé dans cette dernière partie correspondra au passage à l’échelle de la recherche interactive, que nous voulons aborder à travers la proposition de nouvelles méthodes mariant les avantages de structures efficaces de hachage pour l'indexation avec des techniques d'exploration pour la recherche.

Le consortium apporte des compétences très complémentaires nécessaires à la réalisation de VISIIR : l'UPMC est spécialisée dans les méthodes de classification d'images et d'apprentissage statistique, I3S apporte des compétences fortes en CBIR et en passage à l’échelle, L3I en saillance visuelle et sur les modèles d'attention, et Tobii son expertise sur la technologie eye-tracker.

Nicolas THOME (Laboratoire d'Informatique de Paris 6)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LIP6/UPMC Laboratoire d'Informatique de Paris 6
L3I Laboratoire Informatique, Image et Interaction
I3S-CNRS Laboratoire d'Informatique, Signaux et Systèmes de Sophia-Antipolis
Tobii Tobii Technology

Aide de l'ANR 612 545 euros
Début et durée du projet scientifique : septembre 2013 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.