Annotation de données visuelles avec des descriptions sémantiques – ViSen
De nos jours, un document web typique contient un mélange de contenu visuel et textuel. La plupart des outils traditionnels de recherche peut gérer avec succès le contenu textuel, mais n'est pas adapté pour gérer des documents hétérogènes. Ainsi, ce nouveau type de contenu nécessite le développement de nouveaux outils efficaces pour la recherche et l'indexation.
Le projet Visual Sense a pour objectif l'analyse automatique du contenu sémantique de données visuelles afin de permettre une "lecture d'images par l'ordinateur". Ces dernières années ont vu des progrès significatifs réalisés pour la reconnaissance automatique de concepts visuels. Ces avancées permettent la création de systèmes pouvant automatiquement générer des annotation d'images par des mots-clés. Le but de notre projet est d'aller plus loin en prédisant une représentation sémantique des images pouvant être utilisée pour générer des annotations d'images à l'aide de phrases. Cela facilitera la recherche et l'exploration de vastes collections de documents multi-modaux. Plus particulièrment, le projet vise trois cas d'utilisation : l'annotation d'images, le re-classement du résultat de la recherche d'images et l'illustration automatique d'articles par des images.
Il s'intéressera aux problèmes de recherche suivants:
1. Développer des méthodes pouvant prédire une représentation sémantique d'un contenu visuel. Cette représentation ira au-delà de la détection d'objets et de scènes et permettra également la reconnaissance de nombreux types de relations entre objets.
2. Etendre les techniques de l'état-de-l'art concernant le traitement du langage naturel aux problématiques d'analyse de vastes collections de documents multi-modaux et la génération automatique de légendes d'images utilisant à la fois les représentations sémantiques du contenu visuel ainsi que du contenu multi-modal.
3. Développer des algorithmes d'apprentissage pouvant exploiter les données multi-modales disponibles pour découvrir des associations entre les contenus visuels et textuels. Ces algorithmes devront être capable de gérer des données faiblement annotées et être robustes à la quantité importante de bruit.
Pour cela, le projet s'appuiera sur une expertise dans de multiples disciplines, incluant la vision par ordinateur, l'apprentissage automatique et le traitement automatique du langage naturel en rassemblant quatre groupes de recherche de l'Université Surrey (Surrey, UK), l'Institut de Robòtica i Informàtica Industrial (IRI, Spain) , l'Ecole Centrale de Lyon (ECL, France), et l'Université de Sheffield (Sheffield, UK) ayant chacun une expertise reconnue et complémentaire dans leurs domaines de recherche respectifs.
Pour cela, le projet s'appuiera sur une expertise dans de multiples disciplines, incluant la vision par ordinateur, l'apprentissage automatique et le traitement automatique du langage naturel en rassemblant quatre groupes de recherche de l'Université Surrey (Surrey, UK), l'Institut de Robòtica i Informàtica Industrial (IRI, Spain) , l'Ecole Centrale de Lyon (ECL, France), et l'Université de Sheffield (Sheffield, UK) ayant chacun une expertise reconnue et complémentaire dans leurs domaines de recherche respectifs.
Coordination du projet
Krystian MIKOLAJCZYK (University of Surrey/Department of Electronic Engineering)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
IRII Institut de Robòtica i Informàtica Industrial
UoSu University of Surrey/Department of Electronic Engineering
UoSh University of Sheffield, Department of Computer Science
ECL LIRIS Ecole Centrale de Lyon, Laboratoire d'InfoRmatique en Image et Systèmes d'information
Aide de l'ANR 296 475 euros
Début et durée du projet scientifique :
décembre 2012
- 42 Mois