CE23 - Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle

Les processus de textualisation : modélisations linguistiques, psycholinguistiques et d'apprentissage automatique – Pro-TEXT

Pro-TEXT

Les processus de textualisation : modélisations linguistique, psycholinguiste et d’apprentissage automatique

Analyser le processus de textualisation et modéliser ses dynamiques

Le projet de recherche Pro-TEXT analyse la textualisation, c'est-à-dire le processus de construction progressive d'un texte. Une meilleure connaissance de la textualisation permet de saisir les mécanismes qui relient la structure, les contraintes de genre textuel et les objectifs pragmatiques, d'aider à comprendre comment l'actualisation des unités linguistiques réalise des sauts qualitatifs assurant la configuration d'unités complexes à partir d'unités minimales, et de dévoiler les mouvements qui permettent de forger un texte. <br />Nous étudions plus spécifiquement les jets textuels, c’est-à-dire les segments linguistiques produits entre deux pauses de rédaction (Cislaru & Olive, 2015 ; burst en anglais, Chenoweth & Hayes 2001). Par exemple, la phrase “une cousine qui peut venir partager du temps avec elle pendant le week-end“ a été rédigée en produisant 7 jets textuels de longueur et formes variées : [pause] une cousine qui [pause] peut venir partager du temps avec elle pendant [pause] le [pause] w [pause] eek [pause] - [pause] end. [pause]. Pour cela, nous utilisons l'enregistrement en temps réel du processus d'écriture qui permet d'accéder à la dynamique de la textualisation <br />Le projet Pro-TEXT vise à élucider la dynamique de la textualisation en modélisant les relations entre les indices temporels des processus cognitifs de rédaction et la nature des jets textuels en français et dans les traductions anglais-français. Il s’agit de donner un aperçu des régularités des jets textuels et de leurs combinaisons selon les contraintes cognitives et contextuelles.

Le projet Pro-TEXT est un projet interdisciplinaire qui développe des méthodes linguistiques et psycholinguistiques et engage des outils d'apprentissage automatique pour modéliser ces régularités et mettre en évidence des patrons textuels. Précisément, il s'agit :
- de découvrir les chaînes linguistiques choisies par les rédacteurs pour construire leurs textes et les liens par lesquels ils sont interconnectés ;
- d'identifier les types de séquences qui constituent le matériel de la textualisation;
- de fixer les régularités de textualisation et les stratégies combinatoires des jets textuels dans divers contextes et genres de texte;
- d’interpréter comment les variations des demandes cognitives affectent les pauses de production et la forme et la fonction linguistique des jets textuels.
Pour ce faire, nous menons des analyses comportementales (calcul des pauses, durée et vitesse de production des unités linguistiques, retour en arrière sur le texte), linguistiques (description des jets textuels, modélisation des types de relations leur permettant de s'articuler pour former des unités de niveau supérieur), statistiques (calcul des régularités, similarités, comparaison des corpus en fonction d'une série de variables) et appliquons des méthodes d'apprentissage automatique pour modéliser le processus de textualisation.

Les résultats de recherche attendus sont:
1. Une description détaillée des unités de performance linguistique produites spontanément au cours du processus de textualisation ;
2. Une catégorisation des types de pauses ;
3. Une modélisation des processus de textualisation.
A mi-parcours, les résultats sont:
- préparation et mise en forme du corpus;
- annotation comportementale complète du corpus;
- annotation linguistique partielle du corpus (établissement d'un guide d'annotation, annotation automatique et correction manuelle d'une partie du corpus)
- analyses linguistiques ponctuelles visant des objets précis
- analyses textométriques
- analyses statistiques des données comportementales et des données linguistiques brutes.

Les perspectives à ce stade concernent:
- annotation linguistique complète du corpus
- visualisation dynamique des corpus
- mise à disposition des corpus
- analyse linguistique et textométrique complète
- analyse statistique prenant en compte les données annotées
- modélisations théoriques
- articulation des données comportementales et des données linguistiques
- modélisation du processus de textualisation moyennant des approches d'apprentissage automatique

Réalisé
3 articles de revue
4 communications orales
En cours
1 proposition d'article acceptée
2 communications internationales prévues en juillet 2021
Ajourné
1 journée d'études inter-ANR
1 atelier dans un colloque international
3 communications dans des colloques internationaux

Pro-TEXT
Un texte est une configuration relevant du plus haut niveau de complexité linguistique et constituant une unité de communication. Or, on ne dispose pas à l'heure actuelle de modèle théorique de textualisation en tant que processus ET produit, en dépit de l'expérience empirique omniprésente des textes: ainsi, il n'en existe pas actuellement de définition théorique exhaustive et consensuelle, ni de connaissances complètes sur le processus de construction d'un texte, et les approches de génération automatique de textes n'en ont pas encore trouvé de modèle satisfaisant. En effet, les textes, et plus particulièrement les textes écrits, sont produits sous des contraintes complexes dont certaines étaient impossibles à saisir jusqu'à récemment, en l'absence de tout aperçu du processus de textualisation en tant que tel.
Grâce à l'enregistrement en temps réel du processus d'écriture à l'aide de logiciels de suivi des frappes, nous pouvons accéder à la dynamique du processus de textualisation. Dans les grandes lignes, les performances langagières écrites ou orales prennent la forme de linéarisations incrémentales contraintes par la temporalité et accompagnées de disfluences de révision. Le projet Pro-TEXT entreprend de:
• saisir les mécanismes qui relient structure, contraintes de genre et visées pragmatiques;
• aider à comprendre la façon dont l'agencement des unités linguistiques réalise des sauts qualitatifs;
• dévoiler les dynamiques qui permettent la configuration d'un produit qualitativement nouveau, le texte, à partir des données et des structures disponibles.
Trois équipes de recherche - Clesthia (linguistique), CeRCA (psychologie cognitive) et LIPN (informatique) - se pencheront sur l'étude des jets textuels, qui sont des segments textuels produits entre deux pauses:

EX: [pause] une cousine qui [pause] peut venir partager du temps avec elle pendant [pause] le [pause] w [pause] eek [pause] – [pause] end. [pause]

Quatre types d'écrits enregistrés en temps réel ont été collectés: des rapports éducatifs de la protection de l'enfance, des écrits académiques produits par des étudiants de Master, des écrits d'élèves (en français) et des traductions courtes français-anglais. Un corpus expérimental viendra compléter ces données.
L'analyse linguistique se propose de rendre compte des chaînes linguistiques choisies par les scripteurs pour construire leurs textes et les liens qui les relient; d'identifier les types de séquences qui constituent le matériel linguistique de la textualisation; de fixer les règles et les régularités d'agencement sous-tendant leur organisation dans un texte formellement et sémantiquement valide, ainsi que les stratégies combinatoires utilisées par les auteurs dans divers contextes et genres textuels.
L'approche psycho-cognitive s'attachera à interpréter les pauses de production et les jets textuels en identifiant les processus cognitifs qui les sous-tendent et la manière dont les variations des demandes cognitives affectent ces pauses et jets, ainsi que les formes et fonctions linguistiques des jets textuels produits.
Grâce aux méthodes d'apprentissage non supervisé (clustering incrémental collaboratif et dynamique), le projet Pro-TEXT mettra à jour la dynamique du processus de textualisation en modélisant les relations entre les indices temporels des processus cognitifs (comme les pauses) et la nature des jets d'écriture. Les approches incrémentales d'apprentissage automatique combleront une lacune dans l'analyse et la représentation de la performance langagière en temps réel, tout en révélant des régularités qui restent non marquées dans les méthodologies utilisées précédemment.
Au final, nous fournirons des descriptions linguistiques et psycholinguistiques structurées des processus de textualisation, des corpus enrichis d'étiquettes linguistiques et comportementales, des modèles incrémentaux et des outils de clustering adaptés à ce type de données dynamiques.

Coordinateur du projet

Madame Georgeta Cislaru (Langage, systèmes, discours)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

CLESTHIA Langage, systèmes, discours
CeRCA Centre de recherches sur la cognition et l'apprentissage
LIPN Laboratoire d'Informatique de Paris-Nord

Aide de l'ANR 517 960 euros
Début et durée du projet scientifique : mars 2019 - 42 Mois

Liens utiles

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter