Traitement des fake news et du vague informationnel : une approche hybride entre IA symbolique et apprentissage profond – HYBRINFOX
Le projet HYBRINFOX a pour but de contribuer à la lutte contre la désinformation en ligne en étudiant et en développant plusieurs méthodes d'hybridation entre approches d’IA symboliques et deep learning pour la détection de fausses informations (fake news, ou infox). Il prend pour levier principal l’identification d’informations vagues, susceptibles d’introduire ou de favoriser des biais (de subjectivité, d’évaluativité).
Ce projet s’inscrit dans le prolongement d’un programme RAPID intitulé DIEKB (‘Disinformation Identification in Evolving Knowledge Bases’, 2019-2022) entre l'équipe CoLoR de l'INSTITUT JEAN-NICOD (Paul Egré, Benjamin Icard), MONDECA (Ghislain Atemezing) et AIRBUS (Sylvain Gatepaille, Guillaume Gadek, Souhir Gabiche, Paul Guélorget). La recherche qui en est issue a produit des résultats récents tout à fait prometteurs, dont le succès même justifie un changement d'échelle et l'appel à de plus amples moyens (financement de deux postdocs, intégration et avancement des prototypes). Ce développement justifie en particulier l'association d'un nouveau partenaire, l'équipe LinkMedia de l'IRISA (représentée par Vincent Claveau), spécialisée dans le deep learning et le traitement automatique du langage pour l'identification des fake news.
L'hypothèse directrice du projet est que certains items lexicaux caractéristiques du vague sémantique, en particulier les adjectifs évaluatifs, constituent un indice pertinent du caractère potentiellement faux, biaisé, ou peu fiable de certains textes. Une première version de cette hypothèse a été testée récemment avec la mise au point d’un algorithme d’IA symbolique, l’outil VAGO, et par sa comparaison avec un algorithme basé sur du deep learning, le classifieur FAKE-CLF. L'outil VAGO donne une mesure du caractère vague par opposition à précis d'un texte, et du caractère subjectif (opinion) par opposition à objectif (factuel) d'un texte. La comparaison avec les résultats du classifieur FAKE-CLF fait apparaître une corrélation positive entre scores de subjectivité mesurés par VAGO et scores de fausseté prédits par FAKE-CLF.
Ce résultat ouvre plusieurs pistes d'hybridation entre les deux méthodes, que le programme HYBRINFOX propose de développer. Ce projet comporte une double visée scientifique et industrielle : il s’agit premièrement de rendre explicable la méthode de deep learning à l'œuvre dans le classifieur FAKE-CLF à l'aide de l’IA symbolique et de l’emploi de règles sémantiques explicites. Il s'agit ensuite de tirer parti de la méthode d’IA symbolique développée avec VAGO pour améliorer les performances des modèles de deep learning, et simultanément d'enrichir le lexique de VAGO comme la typologie sous-jacente afin d'affiner l'identification des indices de fausseté textuelle. Enfin, le but est de mieux cerner la frontière entre les usages véridiques et les usages non-véridiques de l’emploi du vague linguistique dans le discours, en entraînant et en testant les algorithmes basés sur du deep learning sur des corpus plus ou moins vagues ou précis. Associant partenaires recherche (IJN, IRISA) et partenaires industriels (Mondeca, Airbus), le projet testera les outils développés sur de nouveaux cas d'usage civil et défense.
Coordinateur du projet
Monsieur Paul EGRE (Institut Jean-Nicod)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
AIRBUS Airbus Defence and Space
IRISA Institut de Recherche en Informatique et Systèmes Aléatoires
IJN Institut Jean-Nicod
MONDECA MONDECA
Aide de l'ANR 298 019 euros
Début et durée du projet scientifique :
- 30 Mois