ChairesIA_2019_2 - Chaires de recherche et d'enseignement en Intelligence Artificielle - vague 2 de l'édition 2019 2020

Analyse et Interconnexion Intelligente des Contenus Héterogènes dans des Arènes Numériques – SourcesSay

Résumé de soumission

Les données numériques, en format textuel, semi-structuré ou structuré, que ce soit du CSV, RDF, JSON etc. sont produites à un rythme très important, et fournissent un miroir numérique de l'activité humaine. Les données numériques sont souvent au coeur de la démocratie et du débat public. Ceci exige des méthodes computationnelles qui facilitent, protègent et éclaircissent les échanges d'informations entre des utilisateurs et/ou des institutions.

Nous identifions une arène comme un ensemble d'organisations et individus, ainsi que du contenu structuré ou pas sur un certain sujet qui les intéresse. Pour établir la vérité d'une affirmation, on recherche dans le contenu de l'arène digitale des données pouvant la confirmer ou l'infirmer, ainsi que des éléments contextuels permettant de l'interpréter. Ceci suppose la capacité d'interconnecter les sources de données dans l'arène. Pour la confiance dans la qualité du résultat de telles vérifications, il est crucial de modéliser et de préserver les sources de données de l'arène en tant que citoyens de première classe, dans tous leurs détails et en lien avec la source les ayant publié. Ceci est nécessaire pour permettre d'identifier très rapidement les preuves (sources) pour chaque élément d'information qui en est dérivé.

Notre projet vise à définir, développer et déployer dans des applications journalistiques un Arena Management Systems (AMSs), un nouveau type de système intelligent s'adaptant aux données et aux utilisateurs afin d'organiser, analyser et interconnecter des contenus dans une arènes. Des utilisateurs "déposent" des sources en différents format dans l'AMS; celui-ci en construit un graphe qui reflète leur structure, ainsi que des entités et relations extraites, et des éléments d'interconnexion ("signaux faibles") tels que des codes, hashtags, emails etc. L'intérêt des élements d'interconnexion est de faire un lien entre les contenus des sources, même lorsqu'il n'y a pas assez d'information pour qu'on puisse en extraire une entité. Notre collaboration avec des journalistes du Monde a montré qu'une couverture faible pour des sujets d'intérêt journalistique est la norme plutôt que l'exception, p.ex., dans les enquêtes Panama Papers ou sur l'interférence de la Russie dans des élections en Occident, des connexions cruciales ont été faites à travers des noms d'entreprises obscures (car fictives), des identifiants de bloggers anonymes etc. L'AMS stocke et indexe le graphe, permet son interrogation par des mots clés (où l'on cherche les connexions, p.ex., entre "Assemblée Nationale" et "Russie") ainsi que par une exploration visuelle intéractive.
Le but du projet est différent de la construction d'une base de connaissances, car (1) comme indiqué ci-dessus, l'information est souvent insuffisante; (2) nous représentons l'arène comme des sources reliées, plutôt que par le graphe qui en serait extrait (potentiellement avec des probabilités ou provenance). De tels graphes sont peu adaptés à des journalistes qui doivent toujours pouvoir citer une source précise et fiable, au sens fort enseigné dans leur métier.

Notre projet utilisera et proposera de nouvelles méthodes de classification et apprentissage, pour: extraire des entités, relations, et éléments d'interconnexion; apprendre à partir d'un retour utilisateur parcimonieux des décisions de fusion de noeuds ou éléments d'interconnexion; organiser le stockage du graphe afin de l'adapter au mieux à l'intérêt des utilisateurs et aux caractéristiques des données; et produire de façon efficace les réponses les plus intéressantes aux requêtes, pour des notions d'intérêt à formaliser et à apprendre à partir des cas d'application fournis par Le Monde et WeDoData, intéressés par le projet; ainsi que pour faire émerger des données des résultats intéressants allant au délà du besoin/intérêt exprimé par l'utilisateur.

Coordination du projet

Ioana Manolescu (Centre de Recherche Inria Saclay - Île-de-France)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

Inria Saclay - Ile de France - équipe CEDAR Centre de Recherche Inria Saclay - Île-de-France

Aide de l'ANR 587 980 euros
Début et durée du projet scientifique : août 2020 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter