LabCom - Vague 2 - Laboratoires communs organismes de recherche publics – PME/ETI - Vague 2

Social Media Intelligence and Linked Knowledge – SMILK

SMILK: Intelligence des Médias Sociaux et Connaissances Liées

Extraire et analyser des contenus sociaux du Web

L’objet de ce LabCom est de développer de la recherche et des technologies permettant d’une part, d’extraire, d’analyser, de lier et de raisonner sur les données issues des ressources textuelles du Web et d’autre part, d’utiliser les données ouvertes du Web en prenant en compte les structures et les interactions sociales afin d’améliorer l’analyse et la compréhension des ressources textuelles.

NLP, LOD et SNA

Traitement Automatique du Langage Naturel (TALN), Web des données ouvertes (Linked Open Data) et réseaux sociaux (RS) sont les trois sujets de ce LabCom et notamment leur couplage étudié selon trois axes : textes et données liées, données liées et ressources sociales, textes et ressources sociales.

Résultats

Notre premier prototype est un plugin de navigateur Web. Lorsque l'utilisateur consulte une page web , le plugin détecte les entités nommées du domaine de la cosmétique et les surligne de couleurs différentes en fonction de leur type (noms de produits, gammes, groupe de cosmétique, division d’un groupe). Chaque entité nommée est désambiguïsée et liée à la ressource DBpedia correspondante pour en extraire les données. Lorsque l’utilisateur clique sur une entité surlignée, un graphe est construit à la volée, permettant de visualiser les liens entre toutes les informations qui ont pu être extraites du texte, enrichies d’informations provenant de DBpedia et des réseaux sociaux (analyse d’opinion, nuages de mots, …).

Perspectives

La prochaine étape est la réalisation de campagnes d'expériences avec des utilisateurs réels (clients de Viséo) sur un domaine précis avec le premier prototype.
En parallèle nous travaillerons sur l'adaptation des technologies du TALN à l’extraction automatique de données structurées d’un média social et notamment l'adaptation de technologies à l'analyse de textes dégradés.

Productions scientifiques et brevets

Résumé de soumission

SMILK est un laboratoire Commun (LabCom) à l’équipe WIMMICS (Web-Instrumented Man-Machine Interactions, Communities and Semantics, Inria, I3S) et à l’unité Recherche et Innovation de la société VISEO.
Traitement Automatique du Langage Naturel (TALN), Web des données ouvertes (Linked Open Data) et réseaux sociaux (RS) sont les trois sujets de ce LabCom et notamment leur couplage étudié selon trois axes : textes et données liées, données liées et ressources sociales, textes et ressources sociales. L’objet de ce LabCom est en effet de développer de la recherche et des technologies permettant d’une part, d’extraire, d’analyser, de lier et de raisonner sur les données issues des ressources textuelles du Web et d’autre part, d’utiliser les données ouvertes du Web en prenant en compte les structures et les interactions sociales afin d’améliorer l’analyse et la compréhension des ressources textuelles.
L’ouverture et la mise à disposition de grands volumes de données publiques (open data) et l’application des principes du web à la mise en réseau des jeux de données en liant les données entre elles (linked data), ont fait naître de nouvelles opportunités pour des recherches en cours tout en faisant apparaitre, du fait de l’hétérogénéité des données et de leurs possibles mises en relation, de nouveaux verrous scientifiques. Les thèmes abordés par le LabCom SMILK comprennent : l’exploitation de données et de vocabulaires publiés sur le web afin de fouiller, analyser, désambiguïser et structurer de façon intelligente des informations textuelles mais aussi de nourrir des sources internes ; le raisonnement sur la combinaison des données et schémas internes et publics ; l’interrogation et la présentation de données et d’inférences dans des formats naturels. Pour cela le LabCom SMILK étudie différentes pistes comme le couplage fort des algorithmes et modèles du niveau linguistique et du niveau sémantique, l’extraction et la désambiguïsation des connaissances guidées par les ressources du Web des données et la combinaison de différents modes de raisonnements (inférences logiques, approximations et similarités, etc.).
Ce laboratoire commun permet à WIMMICS d’accéder à une vision terrain afin d’utiliser des données et des besoins réels pour mener ses travaux de recherche et à Viseo d’enrichir son expertise en TAL avec le savoir scientifique de WIMMICS en web sémantique afin d’optimiser les coûts de la recherche et de l’innovation et de faire évoluer son offre autour de la Business Intelligence en faisant jaillir de nouvelles idées via la confrontation de deux cultures différentes autour des ressources du Web.

Fabien Gandon (Institut de Recherche en Informatique et Automatique) – fabien.gandon@inria.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

INRIA Institut de Recherche en Informatique et Automatique

Aide de l'ANR 312 000 euros
Début et durée du projet scientifique : janvier 2014 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.