Quatre étapes pour envisager de nouvelles études des expressions référentielles et des chaînes de référence : (i) un modèle discursif, diachronique et translinguistique ; (ii) un corpus annoté manuellement ; (iii) un outil d'annotation et d'exploration des données annotées ; (iv) un système de traitement automatique des langues pour ouvrir la voie à l'automatisation de l'annotation.
Malgré l'existence de descriptions approfondies des expressions référentielles, il n'existe pas : (i) de description intégrée permettant la modélisation des chaînes de référence, de prédictions sur leur comportement textuel, voire leur typologie ; (ii) de corpus permettant d'apprécier l'évolution historique de leur composition ; (iii) d'outil permettant de visualiser, d'explorer et analyser des corrélations dans les chaînes de référence ; (iv) de système de traitement automatique des langues capables de traiter du texte tout-venant, écrit en français, pour en extraire les expressions référentielles et les chaînes de référence. DEMOCRAT se donne pour ambition d'apporter de nouveaux résultats sur ces 4 aspects, qui constituent les 4 volets et les 4 livrables principaux du projet.<br /><br />Du point de vue théorique, DEMOCRAT permettra d'articuler l'ensemble des connaissances disponibles sur les expressions référentielles isolées et les enchaînements anaphoriques, et de vérifier ou moduler pour le français les hypothèses émises par des théories comme la Théorie de l'Accessibilité, la Hiérarchie du Donné et la Théorie du Centrage.<br /><br />Du point de vue des ressources (corpus et outils), DEMOCRAT contribuera aux humanités numériques en proposant un corpus numérique riche, pour la langue française, annoté en fonction d'analyses linguistiques relevant d'une dimension encore peu explorée, à la fois sémantique et pragmatique. En apportant de nouvelles données sur la langue, ce corpus et le modèle associé sont destinés à : (i) nourrir l'ensemble des applications de TAL (corpus d'envergure adapté aux besoins de l'apprentissage artificiel) ; (ii) renforcer la place du français dans le monde via notamment son intégration dans un défi scientifique d'ampleur internationale ; (iii) apporter de nouvelles connaissances à toutes les disciplines connexes à la linguistique, comme la didactique, la psycholinguistique, l'enseignement du français et des langues.
Pour appréhender les expressions référentielles et les chaînes de référence, la démarche suivie sera une combinaison des méthodes de la linguistique (notamment diachronique), de la linguistique de corpus outillée et de l'analyse statistique de données textuelles. Une fois les phénomènes définis sous la forme de choix de marquables et d'un schéma d'annotation, il s'agira d'annoter manuellement un ensemble de textes répartis selon les périodes et les genres textuels retenus. Des expérimentations permettront d'affiner les choix et de rédiger un manuel d'annotation, qui sera mis à l'épreuve par des séances d'annotation chronométrées et des calculs d'accords inter-annotateurs. Le corpus final, comme toutes les productions du projet, seront mises à disposition librement, avec des licences Creative Commons à préciser. En parallèle seront expérimentées de nouvelles modalités d'analyse qualitative et quantitative, avec notamment des mesures adaptées aux chaînes de référence et la mise au jour d'une procédure d'analyse typique, facilitant les comparaisons. L'interface graphique et la bibliothèque de macros de TXM évoluera ainsi avec DEMOCRAT. Si des textes ont fait par ailleurs l'objet d'annotations connexes, cela permettra des analyses croisées.
La détection automatique de chaînes reposera sur l'état de l'art, concernant non seulement la langue française (systèmes à base de règles), mais surtout les langues représentées dans les campagnes internationales (systèmes à base d'apprentissage et systèmes hybrides). Plusieurs techniques seront implémentées pour le français, en commençant par séparer la détection des expressions référentielles de celle des paires coréférentes, les deux étapes faisant appel à des algorithmes différents. Des analyses linguistiques des erreurs commises seront effectuées, afin de spécifier des méthodes d'hybridation : application de règles en amont ou en aval de l'apprentissage, détermination de traits linguistiques spécifiques au français.
Outre les livrables (modèle, corpus, outil d'annotation, système de TAL), les résultats finaux escomptés concernent à la fois les aspects méthodologiques, appliqués et scientifiques.
Aspects méthodologiques : TXM deviendra un outil d'annotation et d'exploitation d'information textuelle, avec de nouvelles possibilités et enjeux d'analyses linguistiques quantitatives et qualitatives. Avec le corpus annoté, ceux-ci pourront alimenter les réflexions de l'ensemble des groupes du consortium CORLI (TGIR Huma-Num) et d'une manière générale les thématiques suivantes : annotation de haut niveau, corpus d'états anciens de la langue, méthodes et outils pour l'exploration de corpus, qualité scientifique et accessibilité des corpus. La mise en ligne des outils et corpus annoté permettront aux chercheurs (linguistes ou de disciplines connexes à la linguistique) de vérifier leurs hypothèses.
Applications : les analyses des chaînes de référence pourront enrichir des analyses issues d'autres sciences humaines et sociales. Le système de détection automatique des chaînes, dont la promotion sera faite auprès de professionnels (documentalistes, enseignants, entreprises), pourra optimiser les moteurs de recherche sémantique et faciliter des opérations telles que le repérage et l'indexation de thèmes, le résumé, l'extraction d'information, la traduction et la simplification de textes.
Résultats scientifiques : outre les avancées dans la compréhension de l'expression de la coréférence en continu, le projet permettra d'intégrer l'ensemble des connaissances disponibles sur les expressions référentielles isolées et les enchaînements anaphoriques. Il proposera un ensemble de patrons de chaînes qui permettra de fournir aux théoriciens des faisceaux d'indices susceptibles de caractériser et distinguer genres ou types de textes. Enfin, il permettra d'enrichir les bases de données existantes, notamment celles du français ancien (CoRPTeF, BFM, SCRMF) et des plateformes d'archivage (ORTOLANG).
Les recherches linguistiques de DEMOCRAT restent à rapprocher de travaux portant sur le français oral et de travaux psycholinguistiques explorant la résolution des anaphores et des coréférences. L'oral se caractérise par des périodes intonatives et des accents pouvant porter sur certaines expressions référentielles au détriment d'autres. Cet angle d'approche permettrait de poursuivre les études réalisées à partir des corpus ANCOR et DEMOCRAT. L'étude psycholinguistique de productions de sujets décrivant une histoire à partir d'une succession d'images (contrôlée) montre à quel point les paramètres caractérisant les chaînes de référence sont nombreux et se rapprochent des aspects étudiés dans DEMOCRAT, qui devraient permettre de spécifier de nouveaux matériaux expérimentaux.
Le corpus DEMOCRAT regroupe des textes écrits en français, de différents genres textuels et issus de différentes périodes. Il n'inclut donc pas la dimension translinguistique. Or la matérialisation de cette dimension en procédure d'annotation multilingue est une perspective importante, non seulement du point de vue de la démarche contrastive, mais aussi de celui du traitement automatique de documents multilingues et de la traduction automatique.
Concernant les outils d'annotation, la nature même d'une chaîne de référence (qui peut couvrir l'intégralité d'un texte) pose des problèmes de visualisation pour lesquels des métaphores graphiques et des procédures d'interaction restent à affiner, voire à repenser.
De son côté, le TAL explore actuellement de nombreuses techniques d'apprentissage artificiel, depuis les machines à vecteurs de support et les champs aléatoires conditionnels jusqu'aux réseaux neuronaux, notamment les réseaux neuronaux récurrents. Certaines techniques restent à adapter dans le contexte qu'est la langue française avec l'approche diachronique ainsi que l'approche multigenre. C'est le cas par exemple des techniques d'adaptation de domaine.
Des publications dans des conférences et revues dédiées, françaises et internationales, sont prévues pour chacun des quatre volets du projet : (i) des articles de linguistique décrivant les facettes du modèle discursif de la référence de DEMOCRAT (entre autres, colloque Diachro, Congrès Mondial de Linguistique Française, revues Langue Française, Méta, Discours, Journal of French Language Studies) ; (ii) des articles décrivant la méthodologie et la procédure d'annotation (Journées de Linguistique de Corpus, revue Corpus, Joint ACL-ISO Workshop on Interoperable Semantic Annotation, International Journal of Corpus Linguistics) ; (iii) des articles décrivant la plateforme d'annotation et les modalités d'interrogation des données annotées (Journées internationales d'Analyse statistique des Données Textuelles, International Conference on Language Resources and Evaluation) ; (iv) des articles de TAL (Conférence sur le Traitement Automatique des Langues Naturelles, revue Traitement Automatique des Langues, International Conference on Computational Linguistics and Intelligent Text Processing). S'y ajouteront la publication du corpus DEMOCRAT, de l'extension logicielle de TXM et des divers outils de TAL réalisés au cours du projet.
Toutes ces productions scientifiques seront mises en ligne sur la plateforme HAL, dans leur version originale ou sous la forme de brouillon en cas de copyright. Le site web du projet récupérera automatiquement depuis HAL les publications estampillées DEMOCRAT. En temps voulu, ce site web proposera en outre des documents complémentaires, notamment le manuel d'annotation du corpus. Il pointera également vers les sites dédiés aux outils : la plateforme TXM (avec ses propres manuels d'utilisation et annonces de formation) et les outils de détection automatique de chaînes de références.
DEMOCRAT vise à développer les recherches sur la langue et la structuration textuelle du français via l’analyse détaillée et contrastive des chaînes de référence (instanciations successives d’une même entité) dans un corpus diachronique de textes écrits entre le 9ème et le 21ème siècle, avec des genres textuels variés. Le projet mettra à disposition de la communauté scientifique : (i) un modèle intégré et discursif de la référence et de la composition des chaînes de référence ; (ii) un corpus annoté qui puisse servir de corpus de référence et de corpus d’apprentissage pour les campagnes d’évaluation internationales portant sur la coréférence ; (iii) un outil d’annotation, d’aide à l’annotation et de manipulation des données annotées, et (iv) un système de détection automatique des coréférences. Le corpus annoté manuellement en chaînes de référence aura une taille de 1 million de mots, soit environ 100 000 maillons annotés.
Motivations : (i) besoin d’un modèle théorique de la référence et des chaînes de référence, qui soit à la fois fin d’un point de vue linguistique et suffisamment formel pour en permettre une implantation informatique, une volonté du projet étant de faire un pont entre théories linguistiques et traitement automatique des langues ; (ii) besoin de données linguistiques attestées, en particulier diachroniques, permettant d’une part d’apprécier les variations de composition des chaînes de référence, d’autre part de servir de corpus de référence en langue française (écrite) sur des données nouvelles relevant de la sémantique et pas seulement de la morphosyntaxe et de la syntaxe ; (iii) besoin d’une plateforme unifiée pour la gestion de corpus, de la visualisation à l’interrogation et aux calculs statistiques, en passant par l’annotation de phénomènes relevant de différentes dimensions du langage ; (iv) besoin d'un système de détection automatique des chaînes de référence pour la langue française.
Modèle et corpus : malgré des descriptions existantes très fournies sur les expressions référentielles, il n’en existe ni de description intégrée pour modéliser les chaînes de référence, ni de prédiction sur leur comportement textuel, voire leur typologie. A fortiori, il n’existe ni corpus en diachronie ni corpus translinguistique pour apprécier les variations de leur composition. Il existe un seul corpus de grande taille annoté en anaphores (ANCOR), sur du français oral, mais aucun corpus annoté en chaînes de référence, sur du français écrit, c'est-à-dire avec des chaînes de référence de longue taille. Il s’agit donc de construire un corpus de travail pertinent et suffisamment varié pour montrer la diversité de composition des chaînes de référence, de fournir des propositions théoriques favorisant un travail d’annotation efficace, et aider à perfectionner les outils d’annotation. Seront exploités et enrichis le Corpus Représentatif des Premiers Textes Français, la Base de Français Médiéval, le Syntactic Reference Corpus of Medieval French et, pour la langue contemporaine, des extraits des corpus de l’ANR ORFEO.
Linguistique outillée : la mise en œuvre d’une plateforme d’annotation, construite sur la plateforme TXM et enrichie par les fonctionnalités d’annotation dynamique d’ANALEC permettra de fournir un cadre unifié pour l’annotation efficace et ergonomique du corpus, ainsi que pour des expérimentations d’aide à l’annotation.
Système de TAL : il s’agira d’optimiser CROC (Coreference Resolution for Oral Corpus), un prototype développé au LATTICE à l'aide de techniques d'apprentissage automatique utilisées sur le corpus ANCOR, et d'ouvrir la voie à la réalisation de systèmes hybrides, conciliant plusieurs techniques d'apprentissage ainsi que des systèmes de règles comme celui utilisé dans l'outil RefGen développé au LILPA. DEMOCRAT permettra ainsi la mise en œuvre du premier système de détection automatique de chaînes de référence pour le français, système qui participera à des campagnes d'évaluation internationales.
Monsieur Frederic Landragin (Langues, Textes, Traitements Informatiques, Cognition)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
LATTICE Langues, Textes, Traitements Informatiques, Cognition
LILPA Linguistique, Langues et Parole
ICAR Interactions, Corpus, Apprentissages, Représentations
Aide de l'ANR 385 736 euros
Début et durée du projet scientifique :
septembre 2015
- 48 Mois