CONTINT - Contenus et Interactions

Reconnaissance à grain fin dans les grandes bases de données d’images – FIRE-ID

Résumé de soumission

Le projet FIRE-ID se place dans le cadre général de l’annotation sémantique des contenus visuels. Ces contenus se présentent sous la forme de photos ou de vidéos partagées sur des réseaux sociaux, d’images capturées pour la vidéosurveillance ou encore de documents numérisés. Ce projet s’intéresse plus précisément au problème de la reconnaissance à grain fin : nous supposons que les étiquettes utilisées pour l’annotation sont en nombre limité, et correspondent à un grand nombre de classes visuellement très similaires telles que différents types d’animaux, de véhicules, de formulaires, etc.

La reconnaissance à grain fin est utile dans de nombreux contextes applicatifs. Parmi ceux-ci, citons la détection de logos ou de marques dans les publicités ou les vidéos pour les applications marketing, la classification de véhicule (marque/modèle) pour des applications de vidéosurveillance, ou encore la classification de formulaires pour des tâches administratives. Toutes ces applications correspondent à des services innovants pour les contenus visuels.

La reconnaissance à grain fin a été très peu abordée jusqu’à maintenant dans la communauté scientifique. Les travaux antérieurs se sont focalisés sur des tâches très spécifiques, telles que la reconnaissance d’oiseaux, de fleurs ou de feuilles d’arbres. Les solutions proposées sont spécialisées et donc difficilement applicables à de nouveaux problèmes. Notre but est d’aborder la reconnaissance à grain fin de manière générique en offrant des solutions applicables au plus grand nombre de tâches possible.

Nous proposons de considérer ce problème sous un angle original qui consiste à envisager la reconnaissance à grain fin comme un continuum entre les problèmes de recherche par l’exemple et de classification des images. Bien que ces deux problèmes soient fortement liés, les techniques qui ont été développées sont très différentes. Notre but est donc d’unifier recherche par l’exemple et classification afin de tirer le meilleur parti possible des techniques développées pour ces deux problèmes, à savoir la précision des méthodes de recherche, grâce à l’utilisation d’information fine, et la capacité de généralisation des approches de classification, grâce notamment à l’utilisation de techniques d’apprentissage automatique. La question cruciale du passage à l’échelle, c’est-à-dire à un grand nombre d’annotations et d’images (de l’ordre de 10000 catégories et plusieurs millions d'images, respectivement), doit recevoir un intérêt particulier.

Un des axes forts de FIRE-ID sera l’évaluation rigoureuse des algorithmes développés et notamment la participation à des campagnes d’évaluation internationales auxquelles participent les meilleurs groupes de vision et multimédia. De telles campagnes nous permettront de nous comparer avec l’état de l’art de notre domaine.

Le projet regroupe un partenaire académique (l’INRIA) et un partenaire industriel (Xerox) qui sont complémentaires, tant au niveau scientifique, puisque ces deux partenaires rassemblent des compétences internationalement reconnues en classification et recherche par l’exemple des images, qu’au niveau des moyens.

Coordination du projet

Hervé JÉGOU (Inria, centre de recherche de Rennes - Bretagne Atlantique) – herve.jegou@inria.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Inria Rennes - Bretagne Atlantique Inria, centre de recherche de Rennes - Bretagne Atlantique
XEROX XEROX SAS

Aide de l'ANR 435 227 euros
Début et durée du projet scientifique : avril 2012 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter