MDCO - Masse de données Connaissances Ambiantes

Moteur de recherche par le contenu multimédia dans de grandes archives distribuées – DISCO

Résumé de soumission

documents textuels. Or de très nombreuses sources de données fournissent des documents
multimédia (sons, images, documents audiovisuels) pour lesquels les techniques de description,
d'indexation et de recherche restent rudimentaires, restreintes à des types de sources très
caractérisées (par exemple des photos d'identité) et peu homogènes car construites en fonction de
besoins particuliers. Notre projet consiste à concevoir et expérimenter des techniques génériques et
flexibles de recherche et d'indexation basées sur le contenu, et dédiées à des sources de
documents multimédia distribuées. Le projet s'appuie sur trois axes complémentaires.
1. Le premier vise à étudier les descripteurs bas niveau que l'on peut engendrer
automatiquement à partir de documents multimédia afin de les utiliser comme support à des
opérations de recherche. Par « descripteur bas niveau » nous entendons ici des vecteurs de
valeurs caractérisant le contenu d'un document indépendamment de toute information
contextuelle. Nous visons à caractériser ces descripteurs, ainsi que les algorithmes
d'extraction qui permettent de les produire, de la manière la plus générique possible afin de
couvrir une large palette de documents audio, visuels ou audiovisuels. Notre objectif dans
cet axe est d'exploiter la complémentarité de nos compétences en matière de traitement de
données non textuelles.
2. Le second axe consiste à définir des index et des opérateurs de recherche pour de larges
collections de descripteurs. Par « index » nous entendons toute structure (arbre de
recherche) ou technique (hachage) permettant de restreindre drastiquement l'espace de
recherche afin d'éviter un parcours exhaustif d'une collection. Là encore nous visons une
factorisation la plus large possible des techniques applicables à l'ensemble des documents
multimédia considérés. Notre objectif dans ce second axe est de compléter la production des
descripteurs par la spécification d'une boîte à outils complète et générique de traitement de
données multimédia. Un fournisseur de contenus devrait pouvoir étendre cette boîte à outils
pour développer un outil de recherche spécialisé à ses propres collections.
3. Le troisième axe concerne les aspects distribués de la recherche par contenu. Nous
envisageons le cas d'institutions souhaitant référencer leurs collections et bénéficier d'un
système commun d'indexation et de recherche basé sur la mise à disposition de leurs
descripteurs. Nous souhaitons étudier dans cet axe l'extension des structures et algorithmes
de recherche au cas de sources de contenus distribuées. Nous exploiterons également cette
distribution pour gérer le passage à l'échelle.
Le projet comprend également la réalisation d'une plate-forme permettant d'expérimenter sur des
données et dans des environnements réels l'ensemble des propositions techniques issues des trois
axes ci-dessus. Nous n'incluons pas la problématique de la distribution des contenus qui soulèverait
des problèmes de droits de propriétés, mais seulement celle des références à ces contenus,
chaque participant au système restant libre de définir ses propres droits d'accès.
Le partenariat est composé de 5 partenaires se décomposant en trois laboratoires publics
(Wisdom, INRIA Lille, IRCAM) et deux fournisseurs de contenu de profils différents : European Web
Archive (archivage de contenus audio et audiovisuels libres collectés sur le Web) et l'agence photo
de la Réunion des Musées Nationaux (RMN) qui fournira comme base d'expérience sa collection
d'images. Les trois laboratoires apportent des compétences complémentaires sur la gestion de
documents audio (INRIA, IRCAM), images (Wisdom) et les systèmes de recherche distribuée
(Wisdom).

Coordination du projet

Philippe RIGAUX (Université)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

REUNION DES MUSEES NATIONAUX (RMN)

Aide de l'ANR 476 045 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter