Création Littéraire et Analyse dynamique des Manuscrits d'Ecrivains – CreaLAME
Cré@lame propose une étude de l’écriture de création du point de vue des opérations génétiques et des processus d’écriture, de leur dimension psycholinguistique et de l’ergonomie de la créativité. On fait ici l’hypothèse que ces opérations sont modélisables et analysables dans la pratique d’un écrivain patrimonialisé, dont les opérations d’écriture sont conservées dans les brouillons, ou d’un écrivain enregistré par la frappe au clavier. Pour cela Cré@LAME souhaite d’abord développer des outils numériques permettant :
-la saisie et l’analyse des traces graphiques d’une succession de brouillons en intégrant, rendant visibles et balisant les suppressions, ajouts, déplacements, remplacements
-une extraction des données ainsi créées sur les plans lexical, morphosyntaxique et génétique sur l’ensemble d’une séquence d’écriture la plus complète possible
-une modélisation et une représentation synthétique des données qualifiées pour en proposer une analyse interdisciplinaire (humanités numériques, génétique des textes, études littéraires, psycholinguistique)
-la restitution visuelle et le commentaire du film de l’écriture.
Ces outils permettront une approche directe et intelligible du brouillon à des fins d’apprentissage et de médiation littéraire, ils offriront aussi un tableau de bord de l’écriture en cours et ainsi d’autres pratiques de lecture et d’écriture, susceptible de modifier sensiblement les usages et pratiques.
Ces outils prolongeront ceux élaborés en critique génétique (MEDITE, Genographix) et complèteront ceux utilisés en psycholinguistique (Inputlog, Sciptlog). Ils ajouteront aux corpus étudiés habituellement les données extraites des brouillons des écrivains et des enregistrement en direct pour élargir le champ des recherches et posséder un terme de comparaison de niveau très élevé pour l’analyse des processus de textualisation.
Ces données permettront d’identifier si les opérations sont peu ou prou identiques d’un écrivain à l’autre, si, enfin, des constantes se dégagent à côté de pratiques régulière propres à un auteur donné ce qui est essentiel pour la didactique de l’écrit et en particulier de l’écriture de création.
Ces éléments seront mis en regard des données de même type issues de l’analyse des versions successives de pages Wikipédia, échantillon d’écriture collective informationnelle qui constituera un terme de comparaison en regard des pratiques des écrivains.
Dans le domaine de l’IA la question sera de savoir si ces modèles sont transférables à la génération automatique de textes. Le projet s’intéresse au développement d’architectures neuronales génératives en s’appuyant sur les modèles en œuvre dans des systèmes tels que ChatGPT, Gemini et Copilot. Dans notre cas, la séquence en entrée est une version d’un texte et la séquence en sortie, une autre version du même texte. On évaluera à quel point les architectures existantes permettent la réalisation d’une telle tâche, avec quel niveau de granularité. Sur ce point, l’étude des invites selon une interaction humain-machine sera importante.
On interrogera également la nature des données d’apprentissage, habituellement constituées de textes seuls ou de couples de textes statiques. Les données en évolution pourront être apprises et ainsi affiner un grand modèle de langue existant. Plusieurs études confirment la nature et le degré de l’impact des poids des représentations finales et intermédiaires. Ceux-ci sont associés à des notions linguistiques identifiables et leur manipulation permet de plus ou moins tenir compte du voisinage ou d’obstruer des biais d’apprentissage. Une question est de savoir si ce constat est valable dans notre cas ce qui pose la question de l’explicabilité des approches génératives et de l’identification des biais. Il ne s’agirait plus alors de seulement prédire ou proposer le mot suivant, mais de générer une liste de mots à éviter en raison de leur banalité, par exemple, pour d’aller vers des fonctionnements plus créatifs des IA génératives
Coordination du projet
Jean-Marc Quaranta (Université Aix-Marseille)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
CIELAM Université Aix-Marseille
PSYCLÉ Université Aix-Marseille
LIS Université Aix-Marseille
LIRCES Université Côte d'Azur
University of Turku
Aide de l'ANR 661 332 euros
Début et durée du projet scientifique :
février 2025
- 48 Mois