Annotation collaborative de documents multi-modaux, multi-lingues et multi-média – CAMOMILE
L'activité humaine produit des volumes croissants de données hétérogènes, en particulier avec le Web. Ces données peuvent être collectées et analysées pour augmenter les connaissances en sciences sociales, linguistiques, économiques, études comportementales aussi bien qu'en intelligence artificielle et en informatique.
De ce point de vue, les données 3M (multimodales, multimédia, multilingues) peuvent être considérées comme d'archétype pour partager un objet d'études, produit par l'activité humaine, entre de nombreux domaines de recherche scientifique. Mais pour être exploitables, ces données doivent être annotées et disponibles en grandes quantités. Les données annotées sont utiles pour l'analyse informatique des données par des algorithmes d'apprentissage automatique par méthodes statistiques, mais aussi pour les sciences sociales qui exploitent de manière croissante les grands corpus disponibles pour explorer des nouvelles directions de recherche, qui n'étaient pas imaginables il y a seulement quelques années.
Cependant, l'annotation des données est couteuse et nécessite beaucoup de travail manuel et de ce point de vue, les données 3M pour lesquelles les différentes modalités doivent être annotées avec des niveaux d'abstraction différents sont particulièrement coûteuses. Les environnements d'annotation actuels impliquent une annotation manuelle localisée, avec parfois l'aide d'outils automatiques, principalement pour pré-segmenter les données.
Le projet a pour objectif de développer un premier prototype d'environnement collaboratif d'annotation pour les données 3M, dans lequel l'annotation manuelle sera réalisée à distance sur plusieurs sites, tandis que l'annotation finale sera localisée sur le site principal. De plus, suivant le même principe, certains systèmes dédiés au traitement automatique des modalités (parole, image) présentes dans les données multimodales aidera la transcription grâce à des annotations automatiques. Ces annotations automatiques sont produites à distance par chaque site d'expertise, et seront combinées pour produire une aide utile aux annotateurs.
Afin de développer ce nouveau concept d'annotation, nous le testerons sur une étude de cas pratique : le problème de l'annotation des personnes (qui parle ? qui est visible ?) dans des vidéos, qui nécessite la collaboration de systèmes automatiques de haut niveau traitant différents média (vidéo, parole, canal acoustique, reconnaissance optique de caractères…) La qualité des données annotées sera évaluée par l'intermédiaire d'une tâche de recherche de personnes dans les documents.
Cette nouvelle manière de concevoir le processus d'annotation devrait conduire à des méthodologies, outils, instruments et données utiles pour l'ensemble de la communauté scientifique intéressée par des données 3M annotées ; pour permettre cela, l'ensemble du travail sera supervisé par un comité contenant des représentants des principales organisations internationales impliquées dans les ressources langagières et les évaluations associées.
Coordination du projet
Claude Barras (Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur - Centre National de la Recherche) – Claude.Barras@limsi.fr
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LIMSI-CNRS Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur - Centre National de la Recherche
ITU Istanbul Technical University / Faculty of Computer and Informatics
LIG-CNRS Laboratoire d'Informatique de Grenoble
CRP-Lippmann Centre de Recherche Public - Gabriel Lippmann
UPC Universitat Politècnica de Catalunya
IMMI-CNRS Institut des technologies Multilingues et Multimédias de l'Information
Aide de l'ANR 601 452 euros
Début et durée du projet scientifique :
septembre 2012
- 42 Mois