Le résumé automatique à l'ère du tout-numérique – ASADERA
L'analyse des flux de communication est devenu un enjeu stratégique crucial à une époque où la quantité ainsi que la diversité des informations à analyser augmente chaque jour. Les techniques de résumé et de filtrage sont donc devenues essentielles. La diversité des sources d'information oblige à des traitements nouveaux : multilingue, cross-lingue, et des besoins nouveaux émergent : synthèses d'opinions, résumés comparatifs, résumés de documents audio et vidéo... Le projet ASADERA s'inscrit dans ce contexte et propose plusieurs tâches en lien avec le résumé automatique. La première vise à développer une plateforme ouverte de résumé automatique qui implémente des méthodes de l'état de l'art. Une telle plateforme n'existe effectivement pas et son développement au sein du laboratoire d'accueil du projet (LIASD, Université Paris 8) a pour objectif de le placer dans le domaine du TAL et lui donner une visibilité à l'international. La deuxième, tâche principale du projet, s'intéresse au résumé comparatif cross-lingue et multilingue, soit le résumé dans une langue cible des différences de traitement d'un même sujet entre documents écrits dans des langues sources variées. Ce type de résumé est novateur, puisque jamais encore étudié et peut avoir des répercussions importantes notamment en sciences humaines où l'analyse comparée de documents est une tâche récurrente. La troisième vise à explorer l'utilisation de différents types de ressources, acquises automatiquement ou construites manuellement afin de générer des résumés de documents spécialisés. Les risques scientifiques liés à ce projet sont limités, mais la tâche principale pose un problème scientifique majeur lié à l'extraction de connaissances depuis des données traduites automatiquement d'une langue à une autre, et donc bruités par nature.
Aurélien Bossard, qui a effectué la majorité de ses recherches sur le sujet du résumé automatique (multidocument, résumé d'opinions...) et a fait une incursion dans le domaine de la traduction automatique en s'attaquant au problème du transfert de règles d'annotation en entités nommées en contexte multilingue, coordonnera le projet ASADERA. Cela explique la dominante multilingue de la tâche principale du projet ASADERA. Le projet ASADERA est étudié de manière à fédérer une équipe de chercheurs basés à l'antenne du LIASD située à l'IUT de Montreuil (93). Ces chercheurs ont des profils complémentaires : traitement automatique du langage, résumé automatique, recherche et extraction d'information, gestion des connaissances et du raisonnement, logique floue... Le projet ASADERA a donc pour objectif de développer une nouvelle thématique (le résumé automatique) tout en y intégrant les thématiques existantes et vivantes au sein de l'antenne du LIASD située à l'IUT de Montreuil.
Coordination du projet
Aurélien Bossard (Laboratoire d'informatique avancée de Saint-Denis)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LIASD Laboratoire d'informatique avancée de Saint-Denis
Aide de l'ANR 163 266 euros
Début et durée du projet scientifique :
octobre 2016
- 36 Mois