JCJC SIMI 2 - JCJC : Sciences de l'information, de la matière et de l'ingénierie : Sciences de l’information, simulation

Representations Hierarchiques Compositionelles pour la Vision par Ordinateur – HiCoRe

HiCoRe

Representations Hierarchiques Compositionelles pour Vision par Ordinateur

Le besoin pour des representations hierarchiques en vision

En dépit des avancées realisees lors de la dernière décennie, la reconnaissance d’objets déformables à partir de différentes vues reste un problème largement ouvert. Le problème de reconnaissance inclut les tâches suivantes : dire si un objet d’une catégorie particulière, telle qu’un visage ou une voiture, est contenu dans l’image, préciser sa position, détourer la région de l’image le contenant et estimer sa pose et la pose de ses parties. Peu de méthodes s’attachent à<br />tous ces aspects, tandis que le problème de leur réalisation simultanée pour des centaines ou des milliers de catégories, ce que font les êtres humains, n’a pas été abordés du tout. Notre but dans ce projet est d’introduire une approche hiérarchique et probabiliste pour la “vision haut-niveau”, en développant les représentations d’objets et d’images appropriées. Notre objectif est la polyvalence, i.e. la construction de modèles pouvant assurer plusieurs tâches, et la « scalabilité », i.e. proposer une approche pouvant s’appliquer la reconnaissance automatique à grande échelle. Nous proposons d’utiliser les Hierachical Compositional Representations (HCR), qui tiennent compte de la nature hiérarchique des objets visuels en les modélisant de manière récursive : à chaque niveau hiérarchique, les structures sont obtenues par une combinaison probabiliste des structures du niveau inférieur ; au plus bas niveau, ces structures modélisent l’image elle-même. Correctement développés, les HCR satisfont à la fois l’exigence de polyvalence et de scalabilité : leur nature hiérarchique leur permet de résoudre un grand nombre de problèmes en vision. En effet, leurs niveaux les moins détaillés correspondent à l’information au niveau de l’image et peuvent ainsi réaliser une tâche segmentation, quand les hautes échelles peuvent être construites pour la modélisation de catégories d’objets, afin de réaliser les tâches de reconnaissance.

Notre recherche est divisé en deux tâches principales, notamment: (i) le développement des représentations appropriées et (iii) l'inférence performante.

En ce qui concerne le côté de la représentation, nous développons une représentation d'image sparse, contenant seulement quelques centaines de structures par image. Cette représentation constitue donc un niveau intermédiaire entre l'image et l'objet. Nous allons poursuivre méthodes d'introduction d'invariance aux transformations de l'image dans la construction des instruments à cordes, et formant dictionnaires de mi-niveau des cordes, qui pourrait ensuite former les parties partagées entre plusieurs catégories.

Pour ce qui concerne l'inference, nous développons des algorithmes pour adapter efficacement des modèles compositionels aux images observées. La resolution de cet problème consiste à trouver une séquence optimale des compositions de structures d'image afin d'assembler un objets. Nous allons poursuivre sa solution en utilisant les récentes avancées en optimisation combinatoire des représentations hiérarchiques. En outre, nous allons aborder la détection conjointe de plusieurs catégories d'objets, et des vues potentiellement aussi l'objet, en utilisant moins de temps que celui nécessaire pour détecter individuellement. Pour cela, nous allons explorer comment les modèles de composition hiérarchiques peuvent contribuer à sa solution, en exploitant les parties communes de mi-niveau pour réduire le calcul. Dans le cas multi-vue le parties communes peuvent être des vues similaires des parties de l'objet 3D, et dans le cas des plusieurs objets de structures similaires, telles que des roues pour les vélos et les voitures, les fenêtres pour différents types de bâtiments, ou des tubes et des rectangles pour des structures fait de l'homme.

Les resultats les plus marquants du projet incluent
1) une method type 'Branch-and-Bound' pour la detection des objects en temps sous-lineare dans la nombre des pixels.
2) une methode de detection des axes de symmetrie qui attent l'etat de l'art actuel.
3) des algorithmes pour les descripteurs des images et des surfaces qui sont denses, et invariants aux transformations d'echelle et de rotation.
4) une method de reconnaissance d'activites qui exploite une representation de video de mi-niveau.

Pour toute ces avances les logiciels ont ete distributes par le site-web du coordinateur du projet.

Notre travail actuel est concentre au developpement des techniques qui permettent de partager des structures entre des plusieurs objects. Cela peut faciliter la detection des plusieurs objets en temps sous-lineaire meme dans le nombre des categories et dans le nombre des pixels.

1. I. Kokkinos, `Rapid Deformable Object Detection using Dual-Tree Branch-and-Bound', Neural Information Processing Systems (NIPS) 2011
2. S. Tsogkas and I. Kokkinos, Learning-Based Symmetry Detection in Natural Images. Proc. European Conf. on Computer Vision (ECCV), 2012
3. I. Kokkinos, M. Bronstein, R. Littman and A. Bronstein Intrinsic Shape Context Descriptors for Deformable Shapes, Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2012
4. E. Trulls, I. Kokkinos, A. Sanfeliu, and F. Moreno Dense, Segmentation-Aware Descriptors. Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2013.
5. M. Raptis, I. Kokkinos, S. Soatto, Discovering Discriminative Action Parts from Mid-Level Video Representations Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2012.
6. I. Kokkinos, Bounding Part Scores for Rapid Detection with Deformable Part Models, 2nd Parts and Attributes Workshop, in conjunction with ECCV 2012.
7. H. Boussaid, I. Kokkinos and N. Paragios, Rapid Mode Estimation for 3D Brain MRI Tumor Segmentation, Proc. Intl. Conf. on Energy Minimization Methods in Computer Vision and Pattern Recognition (EMMCVPR), 2013.

Reports longs
1. I. Kokkinos, M. Bronstein and A. Yuille, 'Dense Scale Invariant Descriptors for Images and Surfaces', available from HAL as INRIA Technical Report.
2. I. Kokkinos, ‘Rapid Deformable Object Detection using Bounding-based Techniques’, available from HAL as INRIA Technical Report.

En dépit des avancées realisees lors de la dernière décennie, la reconnaissance
d’objets déformables à partir de différentes vues reste un problème
largement ouvert. Le problème de reconnaissance inclut les tâches
suivantes : dire si un objet d’une catégorie particulière, telle qu’un
visage ou une voiture, est contenu dans l’image, préciser sa position,
détourer la région de l’image le contenant et estimer sa pose et la
pose de ses parties. Peu de méthodes s’attachent à tous ces aspects,
tandis que le problème de leur réalisation simultanée pour des
centaines ou des milliers de catégories, ce que font les êtres
humains, n’a pas été abordés du tout.

Notre but dans ce projet est d’introduire une approche hiérarchique et
probabiliste pour la “vision haut-niveau”, en développant les
représentations d’objets et d’images appropriées. Notre objectif est
la polyvalence, i.e. la construction de modèles pouvant assurer
plusieurs tâches, et la « scalabilité », i.e. proposer une approche
pouvant s’appliquer la reconnaissance automatique à grande échelle.

Nous proposons d’utiliser les Hierachical Compositional
Representations (HCR), qui tiennent compte de la nature hiérarchique
des objets visuels en les modélisant de manière récursive : à chaque
niveau hiérarchique, les structures sont obtenues par une combinaison
probabiliste des structures du niveau inférieur ; au plus bas niveau,
ces structures modélisent l’image elle-même.

Correctement développés, les HCR satisfont à la fois l’exigence de
polyvalence et de scalabilité : leur nature hiérarchique leur permet
de résoudre un grand nombre de problèmes en vision. En effet, leurs
niveaux les moins détaillés correspondent à l’information au niveau de
l’image et peuvent ainsi réaliser une tâche segmentation. A l’opposé,
les hautes échelles peuvent être construites à des niveaux
d’abstraction permettant la modélisation complète de catégories
d’objets, au lieu de simples instances de ces objets, afin de réaliser
les tâches de reconnaissance.

Dans le même temps, la modélisation récursive des HCR permet le
partage entre plusieurs objets de certaines de leurs parties à une
échelle donnée. Un tel partage de composantes peu amener à des
algorithmes de détection dont la complexité est sub-linéaire en le
nombre d’objets considérés.

Nous souhaitons donc développer une approche similaire à celle ayant
mené aux systèmes de reconnaissance de parole à grande échelle :
extraction de représentations génériques bas-niveau, recherche d’un
ensemble réduit de composantes communes aux niveaux intermédiaires et
apprentissage pour les combiner de manière probabiliste au sein de
structures haut-niveau.

Nous allons aborder tous les aspects de ce problème, dont ceux du
développement de représentations appropriées de niveaux
intermédiaires, de l’apprentissage de modèles hiérarchiques et de la
détection d’objets dans les images. Nous mettrons l’accent sur les
techniques garantissant l’efficacité et la scalabilité de notre
système. Parmi ces techniques, nous verrons les représentations de
niveaux intermédiaires, fondées sur des chaines de caractères, qui
seront exploitées durant les étapes d’inférence et d’apprentissage.
Nous présenterons également des algorithmes efficaces d’inférence,
reposant sur une optimisation combinatoire, et des techniques de
machine learning pouvant s’appliquer à des représentations
hiérarchiques.

Ainsi, nous prétendons développer un système capable de reconnaître
efficacement et simultanément plusieurs catégories d’objets, tout en
nécessitant peu d’images d’apprentissage.

Coordination du projet

Iason KOKKINOS (ECOLE CENTRALE DES ARTS ET MANUFACTURES DE PARIS) – Iasonas.kokkinos@ecp.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

ECP ECOLE CENTRALE DES ARTS ET MANUFACTURES DE PARIS

Aide de l'ANR 163 680 euros
Début et durée du projet scientifique : - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter