Génération de texte pour le web sémantique – WEB-NLG
Génération de textes et Web Sémantique
Avec l'émergence du «Big Data«, il y a un besoin pressant pour des technologies permettant de faciliter l'accès aux données orientées machine du web des données. Parce qu'elle permet de transformer des données en texte, la génération de texte est un moyen naturel de présenter ces données de façon cohérente, structurée et accessible. Le projet WebNLG vise le développement de systèmes de génération robustes qui permettre de générer des textes de bonne qualité à partir des données du web.
Générer du texte de bonne qualité à partir de données OWL ou RDF
Les deux grands objectifs du projet WebNLG sont:<br /><br />1. de mettre au point des outils et des techniques permettant de verbaliser des données au format OWL ou RDF. Il s'agit en particulier de générer des textes de bonne qualité par example pour verbaliser les requetes utilisateurs sur une base de connaissances ou pour décrire un entité DBPedia. Le projet met en jeu des techniques hybrides symboliques/statistiques de façon à combiner qualité linguistiques, robustesse, généricité et efficacité.<br /><br />2. de promouvoir la recherche sur la génération à partir de données du Web Sémantique par la création de jeux de données et de métriques pour l'évaluation et l'apprentissage. Le projet WebNLG a en particulier pour objectif d'organiser une tache partagée permettant de comparer et d'évaluer différents systèmes sur un jeu de données commun.
Induction automatique de grammaires et de lexiques. En utilisant des techniques symboliques et d'apprentissage automatique pour l'induction de lexique et de grammaire, le projet WebNLG propose de nouvelles solutions qui répondent à un goulot d'étranglement technologique majeur dans le développement de générateurs de texte à savoir, le coût excessif du développement de grammaires et de lexiques. Pour générer de la base de connaissances KBGEN sur la biologie, nous exploitons un corpus parallèle pour induire une grammaire de génération et un corpus comparable pour induire un lexique de génération. Nous utilisons une approche basée sur les embeddings pour apprendre une correspondance entre une propriété DBPedia et sa lexicalisation.
Grammaires. Les approches existantes pour la verbalisation d'ontologies reposent habituellement sur des chablons ignorant ainsi la richesse des recherches menées sur les grammaires computationelles notamment, les grammaires interfacant syntaxe et sémantique. Dans le projet WebNLG, nous exploitons des grammaires d'arbres adjoints sémantiques et lexicalisées fournissant ainsi une modélisation naturelle de la liaison entre le texte, la syntaxe et la sémantique.
Langage naturel non controlé. Alors que les travaux existants sur la verbalisation d'ontologies utilisent généralement un langage naturel contrôlé, nous exploitons des grammaires ambiguës permettant ainsi une plus grande variabilité linguistique et une plus large gamme d'applications.
Approche hybride symbolique-stochastique. Nous combinons des approches symboliques et stochastiques afin d'augmenter la robustesse et de l'efficacité, de réduire la nécessité d'une intervention manuelle et de promouvoir la variabilité linguistique. En particulier, nous combinons des techniques telles que l'alignement automatique texte-données, l'extraction automatique de grammaires, l'ordonnancement et la classification avec l'utilisation de grammaires symboliques.
Bien qu'il y ait eu beaucoup de travail au cours des dernières années sur la génération de langage naturel à partir de données, peu d'attention a été accordée aux interactions à grains fins qui se posent lors de la micro-planification entre l'agrégation, la réalisation de surface et de la segmentation de phrases. Le projet WebNLG a développé une approche hybride symbolique / statistique pour modéliser conjointement les interactions intervenant pendant le processus de generation entre syntaxe, agrégation et segmentation du texte en phrases. Notre approche intègre une petite grammaire écrite à la main, un hypertagger statistique et un algorithme de réalisation de surface. Il est appliqué à la verbalisation des requêtes sur une base de connaissances et testé sur 13 bases de connaissances afin de démontrer sa généricité. Nous évaluons notre approche de plusieurs façons. Une analyse quantitative montre que l'approche hybride surpasse une approche purement symbolique en termes de vitesse et de couverture. Les résultats d'une étudemanuelle indiquent que les utilisateurs trouvent les sorties de ce système hybride / symbolique plus fluides que celles d'un système à base de chablons et que celles d'une approche basée sur une grammaire purement symbolique. Enfin, nous illustrons par des exemples que notre approche peut expliquer divers facteurs qui influent sur l'agrégation, la segmentation en phrases et la réalisation de la surface.
Ce travail est accepté pour publication dans le Journal of Computational Linguistics et a donné lieu à une présentation invitée à la conférence espagnole pour le traitement automatique des langues (SEPLN 2015).
Pendant la première moitié du projet, nous avons travaillé sur la génération de texte à partir de bases de connaissances et développé une approche statistique pour la micro-planification qui modélise les interactions entre réalisation de la surface, agrégation et segmentation en phrases. Nous avons également travaillé sur la verbalisation non supervisée de relations n-aires, téléchargé des démos de nos différents algorithmes de génération sur le site, organisé deux ateliers internationaux et initié de nouvelles collaboration.
Pendant la seconde moitié du projet, nous allons travailler sur la génération de texte à partir de données RDF notamment sur la sélection de contenu (comment sélectionner à partir d'une base de connaissances RDF le contenu à verbaliser?) Et sur la micro-planification (comment produire une texte de bonne qualité à partir du contenu sélectionné?). Pour la sélection du contenu, nous étudions actuellement la façon dont la programmation linéaire en nombres entiers peut être utilisée pour sélectionner un contenu représentatif d'une entité appartenant à une catégorie donnée (par exemple, Alan Bean de catégorie Astronaute). L'objectif est d'être capable de produire automatiquement des descriptions courtes des entités DBPedia qui soient à la fois précises et pertinentes. Pour la micro-planification, nous allons travailler sur l'extension de l'approche que nous avons développé pour les requêtes sur des bases de connaissances et de relations binaires aux relations n-aires et à des descriptions d'événements ou d'entités arbitraires.
Comme prévu, nous travaillerons également sur la construction de données d'entntraînement et de test pour une campagne commune qui sera lancée en 2016-2017.
C. Gardent and L. Perez-Beltrachini. A Statistical, Grammar-Based Approach to Micro-Planning. In Computational Linguistics, Volume 43, Issue 1 - March 2017.
C. Gardent, A. Shimorina, S. Narayan and L. Perez-Beltrachini. Creating Training Corpora for NLG Micro-Planning. ACL 2017. Vancouver (Canada).
S. Narayan, C. Gardent, S. Cohen and A. Shimorina. Split and Rephrase. EMNLP 2017. Copenhagen (Denmark).
L. Perez-Beltrachini, R. Sayed and C. Gardent. Building RDF Content for Data-to-Text Generation. COLING 2016, Osaka (Japan).
L. Perez-Beltrachini and C. Gardent. Learning Embeddings to lexicalise RDF Properties. SEM 2016, The Fifth Joint Conference on Lexical and Computational Semantics, August 11-12 2016, Berlin (Germany).
E. Franconi, C. Gardent, X. I. Juarez-Castro and L. Perez-Beltrachini. Quelo Natural Language Interface : Generating Queries and Answer Descriptions. ISWC 2014 workshop on Natural Language Interfaces for Web of Data (NLIWod), Riva del Garda, Trention, Italy.
B. Gyawali, C. Gardent and C. Cerisara. A Domain Agnostic Approach to Verbalizing n-ary Events without Parallel Corpora. In Proceedings of ENLG 2015, Brighton, UK.
B. Gyawali, C. Gardent and C. Cerisara. Automatic Verbalisation of Biological Events. Proceedings of the 2nd Workshop on Definitions in Ontologies (IWOOD 2015). July 2015, Portugal.
Le web sémantique a fait émerger un besoin accru pour des technologies facilitant l'accès aux données orientées (OWL, RDF) machine du Web des données. Parce qu'elle transforme les données en texte, la génération automatique de texte (NLG) permet de présenter ces données de façon structurée, cohérente et accessible à tous. Inversement, les langages formels utilisés par le web sémantique (e.g., OWL et RDF) sont des formats d'entrée naturels pour les systèmes de génération.
Tirant partie de cette synergie entre génération de texte et web sémantique, le projet Web-NLG vise à promouvoir le développement de systèmes de génération robustes et portables qui permettent de produire du texte de haute qualité à partir des données du web sémantique (e.g., Ontologies, Linked Data).
Le projet bâtira sur une collaboration existante entre le LORIA (Nancy, France), le KRDB (Bolzano, Italie) et Stanford Research International (Palo Alto, USA), rassemblant trois partenaires de haut niveau qui bénéficient d'une expertise reconnue internationalement dans le domaine de la génération de texte (LORIA) et du traitement des connaissances (KRDB, SRI).
Coordination du projet
Claire GARDENT (Laboratoire Lorrain de Recherche en Informatique et ses Applications)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LORIA Laboratoire Lorrain de Recherche en Informatique et ses Applications
KRDB KRDB Research Center for Knowledge and Data
SRI SRI International
Aide de l'ANR 251 925 euros
Début et durée du projet scientifique :
septembre 2014
- 36 Mois