CE23 - Intelligence Artificielle 2020

Supervision Distante pour les Compte-Rendus Enrichis de Relations Rhétoriques – SUMM-RE

De la supervision faible pour les comptes-rendus avec des relations rhétoriques

Alors que les approches actuelles de résumé traitent le discours comme une simple séquence d'énoncés, nous supposons que les riches informations sémantiques représentées par les relations et la structure du discours aideront à identifier les fils centraux du discours dans une conversation et à récupérer des informations sémantiques importantes telles que la raison pour laquelle une certaine décision a été prise ou le désaccord sur une certaine question.

L'objectif général du projet est d'utiliser les informations sémantiques riches fournies par la structure du discours pour améliorer les algorithmes de résumé automatique.

- Un objectif central de SUMM-RE est de s'appuyer sur des travaux existants qui exploitent une faible supervision pour annoter automatiquement des ensembles de données pour la structure du discours en étendant ces méthodes au discours spontané et conversationnel. Les annotations discursives de qualité nécessitent généralement une expertise linguistique - l'étiquetage automatique ou par crowdsourcing n'est pas une alternative viable. Mais l'annotation manuelle demande un effort important. Le développement d'approches faiblement supervisées pour les tâches complexes en TAL changerait la donne pour ce domaine.<br />- Un deuxième objectif est de créer un corpus audio/vidéo de 100 heures d'interactions parlées, multipartites, de type réunion en français, qui sera utile aux chercheurs dans de nombreux domaines. Cet objectif est motivé non seulement par le manque général d'ensembles de données pour les tâches TAL en français, mais aussi par l'hypothèse centrale de SUMM-RE, selon laquelle les informations encodées dans les graphes de discours peuvent être exploitées pour améliorer le résumé automatique. L'ensemble de données sera conçu pour étudier les phénomènes communs à la plupart des réunions.<br />- Un troisième objectif de SUMM-RE est d'utiliser les annotations de la structure et des relations du discours générées à l'aide de la supervision faible pour améliorer la production automatique de résumés abstraits de sujets et de comptes rendus de réunions. Alors que les approches actuelles de résumé automatique supposent qu'une conversation est simplement une séquence linéaire d'énoncés,<br />SUMM-RE postule que l'exploitation des informations sur les liens à distance s'avérera cruciale pour faire progresser l'état de l'art en matière de résumé abstractif.<br />- LINAGORA développe actuellement son Conversation Manager (CM) : un outil open-source pour aider les utilisateurs à créer, de manière semi-automatique, des résumés détaillés de conversations. Pour une conversation donnée, le CM permet aux utilisateurs de modifier et d'annoter la transcription de la conversation via l'éditeur de transcription. Alors que la transcription fournie à l'éditeur de transcription est produite automatiquement, il existe actuellement un support automatique minimal pour l'assistant de résumé. Un utilisateur peut tirer des phrases-clées proposés automatiquement et un court résumé, mais les résumés sont souvent insatisfaisants et les actions, les décisions, etc. doivent être marquées par l'utilisateur dans l'éditeur de transcription et ensuite importées dans l'assistant de résumé. Un autre objectif de SUMM-RE est donc d'incorporer les algorithmes de résumé dans le CM afin d'améliorer le résumé des sujets et de permettre au CM d'identifier automatiquement les parties d'une transcription pertinentes pour les résumés détaillés.

La supervision faible/data programming, les architectures basée sur des transformers, graph neural networks

La supervision faible/data programming sera utilisé pour la segmentation discursive (WP1) ainsi que pour la labelisation des relations discursives (WP2), les architectures basées sur des transformers seront utilisés pour le parsing discursif (WP2) et le résumé automatique (WP3), graph neural networks seront utilisés pour le résumé automatique (WP3)

Résultats

Nous disposons à ce jour de 55 heures d'enregistrements de conversations de type réunion en français et de nouvelles heures arrivent chaque semaine. Il s'agit du premier ensemble de données de ce type et il devrait constituer une ressource très précieuse pour les recherches futures dans divers domaines. Il s'agit du premier ensemble de données de ce type et il devrait constituer une ressource très précieuse pour les recherches futures dans une variété de domaines.

En travaillant sur un corpus similaire, bien que plus petit, de réunions en français, nous avons pu montrer que l'utilisation d'une faible supervision/programmation de données pour affiner un modèle de segmentation de discours entraîné sur du texte peut être très efficace (Gravallier et al 2021).

La réduction du coût de calcul des modèles de langage pré-entraînés est de la plus haute importance pour une variété de raisons allant de l'impact environnemental à l'accessibilité de tels modèles pour les chercheurs disposant de peu de moyens de calcul. Le développement de FrugalScore (Kamal Eddine et al 2022) a montré qu'une telle réduction est possible sans sacrifice significatif de la qualité.

Perspectives

Le corpus SUMM-RE sera une ressource précieuse pour une variété de tâches NLP en français.

Productions scientifiques et brevets

Aucun brevet n'est sorti de ce projet à ce stade (et il n'est pas prévu d'en avoir).

Résumé de soumission

Il devient de plus en plus réaliste d'exploiter les données transcrites pour des tâches qui exigent la compréhension de ce qui est dit lors d’une conversation. SUMM-RE combinera expertise en théories du discours et avancées récentes dans le domaine de l’apprentissage basé sur la supervision distante pour améliorer la production automatique de comptes rendus.

Les approches de pointe en matière de résumé abstrait traitent le discours comme une simple séquence linéaire d'énoncés. SUMM-RE postule qu'en exploitant les informations sur les relations discursives et les riches structures déterminées par les relations entre les énoncés, nous pouvons améliorer considérablement les modèles de résumé abstrait. Le manque de données de formation appropriées constitue un obstacle majeur à l'élaboration de modèles plus sophistiqués de structure discursive pour les conversations parlées et multipartites. SUMM-RE abordera ce problème de deux manières. Premièrement, il créera un nouveau et unique corpus d'interactions de type réunion en français. Deuxièmement, il étiquettera ce corpus et un vaste corpus d'interactions de type réunion en anglais pour la structure du discours. L'approche d'annotation étendra les développements récents en matière de supervision à distance pour développer des fonctions d'étiquetage qui peuvent être utilisées pour étiqueter automatiquement de grandes quantités de données. Cette approche présente l'avantage très intéressant d'exploiter l'expertise linguistique tout en limitant au maximum l'annotation manuelle.

Les données annotées automatiquement seront utilisées pour améliorer les algorithmes tant pour les résumés de sujets courts que pour les comptes rendus de réunions plus détaillés. Ces algorithmes seront à leur tour intégrés dans l'outil de résumé semi-automatique du partenaire principal (LINAGORA) afin d'améliorer considérablement le résultat pour ses utilisateurs. Les résultats du projet (corpus et algorithmes) seront diffusés sous licence open-source dans le cadre de l'offre LinTo/ Conversation Manager de LINAGORA.

Julie Hunter (LINAGORA GRAND SUD OUEST)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LPL Laboratoire Parole et Langage
LIX Laboratoire d'Informatique de l'Ecole Polytechnique
COMUE de toulouse COMMUNAUTE D'UNIVERSITES ET ETABLISSEMENTS DE TOULOUSE
LINA LINAGORA GRAND SUD OUEST
Université de Toulouse - IRIT Institut de Recherche en Informatique de Toulouse

Aide de l'ANR 669 893 euros
Début et durée du projet scientifique : décembre 2020 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.