CONTINT - Contenus et Interactions

Logiques, représentations structurées, morphologie mathématique et incertain pour l'interprétation sémantique d'images et de vidéos – LOGIMA

Résumé de soumission



L'interprétation automatique d'images est un domaine de recherche très actif depuis plusieurs années. Dans ce champ large, ce projet concerne l'extraction de connaissances de haut niveau à partir d'images ou de séquences vidéo, lorsque la détection et la reconnaissance des structures peut bénéficier d'informations structurelles a priori (telles que des interactions spatiales). C'est le cas en particulier dans les séquences vidéo relatives à un contexte spécifique (événements sportifs par exemple), en imagerie médicale (en utilisant des connaissances anatomiques), ou en imagerie aérienne et satellitaire (constructions telles que des aéroports ou des villes).
L'objectif principal de ce projet est d'extraire, analyser et interpréter le contenu (y compris dynamique) de supports d'informations visuelles en utilisant des connaissances structurelles et des outils de raisonnement, afin d'enrichir l'information visuelle d'aspects sémantiques. Le verrou que se propose de lever ce projet, au carrefour de la représentation des connaissances et du raisonnement logique, de la gestion de l'incertain et du raisonnement spatial qualitatif et quantitatif, est de développer un cadre unifié reposant sur les théories algébriques des treillis et des ensembles pour le raisonnement spatial sous incertitude, dans l'objectif de l'interprétation d'images. A partir du cadre général des treillis complets et de la morphologie mathématique, nous proposons, en exploitant les avancées des outils de l'analyse formelle de concepts, (i) d'enrichir les logiques de description avec des outils de raisonnement non monotone, (ii) de les doter d'une capacité accrue de représenter des connaissances fortement structurées (graphes par ex.) telles que celles impliquées dans l'interprétation de scènes. De plus, ce cadre théorique permettra de représenter les connaissances de domaine de manière opérationnelle pour l'interprétation d'images et de raisonner en combinant des aspects imprécis, incertains, logiques et numériques. Cela contribuera à combler le fossé sémantique entre représentations symboliques et les données réelles. Une autre contribution originale du projet est d'introduire la bipolarité pour traiter des informations positives et négatives dans le cadre formel proposé. Deux autres questions importantes seront traitées : la représentation et le raisonnement sur des connaissances dynamiques évoluant dans le temps et dans l'espace, et l'étude des capacités des représentations par graphes et grammaires pour construire des outils algorithmiques de reconnaissance structurelle de scènes. L'originalité du projet n'est pas seulement de proposer et développer théoriquement ce nouveau cadre qualitatif et quantitatif pour l'interprétation d'images, mais aussi de l'appliquer et de l'évaluer sur des données réelles.

Coordinateur du projet

ECOLE CENTRALE ARTS ET MANUFACTURES (Laboratoire public)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Université Paris Sud 11
ECOLE CENTRALE ARTS ET MANUFACTURES
UNIVERSITE PARIS DAUPHINE
Laboratoire Traitement et Communication de l’Information
Ecole Centrale Paris, Laboratoire Mathématiques Appliquées

Aide de l'ANR 354 010 euros
Début et durée du projet scientifique : - 48 Mois

Liens utiles