Blanc SIMI 2 - Blanc - SIMI 2 - Science informatique et applications 2011

Apprentissage Automatique pour l'annotation visuelle dans les media sociaux – MLVIS

Résumé de soumission

L’objectif de la proposition est la conception d’outils d’apprentissage statistique pour l’automatisation des tâches d’accès à l’information dans le contexte des grands media sociaux comme Flickr ou Youtube.

Les media sociaux qui sont une source majeure d’informations, nécessitent de développer une vision nouvelle de l’accès, du partage et de la diffusion d’informations. En effet, la vision traditionnelle a été bâtie sur le concept de recherche effectuée par un utilisateur unique et seul dans des collections homogènes. Dans le cadre des médias sociaux, les utilisateurs sont connectés, l’information y est multiple, hétérogène, organisée dans de grands réseaux contenant des connections multiples entre des éléments de contenu et des utilisateurs. Les usages et méthodes pour répondre à un besoin d’informations doivent donc être reconsidérés à partir du paradigme des réseaux complexes d’informations.

D’n autre côté, l’apprentissage automatique est devenu depuis les dix dernières années une technologie majeure pour l’analyse et l’exploitation d’informations sémantiques. Dans ce contexte aussi les concepts clefs du domaine ont été développés pour l’analyse d’objets simples comme des données indépendantes voire des séquences. Très récemment, des objets plus complexes comme des structures ont été considérés particulièrement dans le cadre de la bio-informatique mais aussi pour l’analyse du Web. Le développement de nouveaux concepts, méthodes et algorithmes pour la modélisation et l’analyse de réseaux de contenu complexes constitue aussi un challenge important du domaine. Il fait l’objet du projet proposé : revisiter les méthodes de l’apprentissage automatique dans le contexte de l’accès à l’information organisées dans des réseaux complexes.

Nous nous intéresserons particulièrement à deux tâches fondamentales de l’apprentissage : la classification supervisée et l’ordonnancement. Ces tâches génériques entre directement dans la résolution de tout un panel d’applications de recherche d’informations. Elles peuvent être utilisées soit seules (pour des problèmes d’étiquetage par exemple), soit dans une chaîne plus complexe de traitements. La proposition investit différentes directions de recherche afin d’inventer de nouveaux algorithmes d’apprentissage - noyaux structurés et contextuels, méthodes de classification collective et méthodes transductives de propagation d’informations dan s notre cas. Une tâche particulière du projet s’intéresse quant à elle à l’unification des différentes méthodes proposées. Plus particulièrement, nous investirons les méthodes de sélection et de combinaisons de modèles.

En plus de l’aspect théorique et algorithmique de la contribution, nous nous intéresserons à une application concrète, complexe, et représentative : l’annotation de vidéos et d’images dans les grands media et réseaux sociaux. Pour cela, nous collecterons des données sociales sur différents sites communautaires afin de construire une collection pour l’évaluation. Les modèles standards ainsi que les méthodes originales développées dans le projet seront évalués sur cette collection.

Hichem SAHBI (CNRS - DELEGATION REGIONALE ILE-DE-FRANCE SECTEUR PARIS A)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LTCI TELECOM ParisTech CNRS - DELEGATION REGIONALE ILE-DE-FRANCE SECTEUR PARIS A
LIP6 UNIVERSITE PARIS VI [PIERRE ET MARIE CURIE]

Aide de l'ANR 389 948 euros
Début et durée du projet scientifique : février 2012 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.