DS0707 - Interactions des mondes physiques, de l'humain et du monde numérique

Analyse et Interprétation d’images de documents sur les réseaux sociaux – AUDINM

AUDINM

Analyse et Interprétation d’images de documents sur les réseaux sociaux

Text detection and recognition in scene images and born-digital document images.

In the AUDINM project, we are combining efforts and expertise of two research labs from document<br />analysis community towards achieving the goal of mining and retrieval of weakly structured contents<br />of social networks. We focus mainly on two types of the large set of different images on social<br />networks: scene images with embedded text and born-digital documents. Those two image classes<br />are more popular in social networks and bring new technical challenges compared to traditional<br />paper documents. Analyzing the contents of those two image classes will help in the development of<br />the next generation of search engines, cyber security, commercial data mining and interactive<br />tourists’ guidance.

Fast image categorization , Image database, Method for fast categorization of Web images
Scene text detection: Text confidence computation, Text component verification
Layout analysis and graphics recognition: Method(s) for multiple layer separation

Fast image categorization (WP1) – Partner: NLPR
o Image database – Deliverable 1.1 as a database and a publication – Month 12
o Method for fast categorization of Web images – Deliverable 1.2 as a publication and a software prototype – Month 12
Scene text detection (WP2) – Partner: NLPR (with collaboration from L3i)
o Text confidence computation – Deliverable 2.1 as a publication and a software prototype – Month 12
o Text component verification using CRF – Deliverable 2.2 as a publication and a software prototype – Month 18
Layout analysis and graphics recognition (WP4) – Partner L3i
o Method(s) for multiple layer separation – Deliverable 4.1 as a publication and a software prototype – Month 12

Continue research and development in WP2 (text detection), and work on WP3 (text recognition) with focus on deep learning techniques.
During research visits, enforce collaborative work between the two partners in terms of co-authored publications.

- Many publications (cited in our report) - both conference and journal publications
- Image database

L’avènement des réseaux sociaux engendre une croissance très importante du nombre des contenus multimédia disponibles sur l'internet.

Ces gigantesques collections de contenus numériques hétérogènes et faiblement structurés génèrent de nombreuses difficultés pour les techniques de fouille de contenus et de recherche d’information au sens large. L'objectif de ce projet est de développer un système permettant la fouille et l'extraction d’information dans ces documents hétérogènes, en concentrant la recherche sur des images de documents faiblement structurés et sur des images de scènes naturelles contenant du texte.

L’analyse de ces contenus est très difficile en raison de la grande variabilité de représentation de l’information : faible résolution des images, fonds complexes, mise en page variable, distorsions géométriques, effets de perspectives, variation d’éclairage, illuminiation insuffisante, problèmes de focalisation, textes et graphiques variables en termes de police, de taille de couleur, le tout parfois dans un contexte multilingue.

Ce projet s’organise autour de la mise en commun de briques complémentaires pour la construction d’un système complet. Un premier étage amont de classification permettra de séparer les images de scènes naturelles des images de documents numériques. Les images de scènes naturelles seront analysées par des modules de détection/extraction de textes, alors que les images de documents numériques seront traitées par des modules d'analyse de la structure de la page et par segmentation de la page.

Le texte extrait des différents types d'images sera analysé par un moteur de reconnaissance de texte multilingue. Enfin, une partie « interprétation conceptuelle, indexation et intégration » combinera les informations extraites des parties précédentes afin d’obtenir une représentation sémantique de la base de contenus numériques. Cette représentation permettra dès lors la fouille et la recherche d'informations.

Prenant appui sur leur expertise respective et complémentaire, les partenaires de ce projet collaboreront sur la résolution des différents problèmes soulevés par ce projet. Les résultats permettront aux équipes partenaires d'augmenter leur expérience scientifique internationale et de consolider leur visibilité sur un sujet extrêmement novateur. Les résultats obtenus seront utilisables pour de nombreuses applications sociétales, telles que l’orientation interactive de touristes, la cyber-sécurité ou encore l'exploration de données commerciales...

Coordinateur du projet

Monsieur Jean-Marc OGIER (Laboratoire Informatique, Image, Interactions)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

L3i Laboratoire Informatique, Image, Interactions
NLPR Institute of Automation of Chinese Academy of Sciences

Aide de l'ANR 244 296 euros
Début et durée du projet scientifique : septembre 2014 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter