CE38 - Révolution numérique : rapports au savoir et à la culture

LIttératures FRAncophones NUMériques : identification, indexation et analyse des productions littéraires nativement numériques dans l’aire francophone – LIFRANUM

Résumé de soumission

Le projet LIFRANUM vise à identifier et structurer le corpus des littératures
francophones nativement numériques (sites, blogs, réseaux sociaux). Cette dimension
patrimoniale se double d’une interrogation épistémologique sur la littérarité des contenus
repérés et la dynamique des sociabilités identifiées. Notre méthodologie consistera, après
un repérage des URL concernées, à lancer des crawlings pour récupérer d’importants
ensembles de données. Celles-ci seront stockées dans un lac de données qui s'appuiera,
pour sa cohérence, sur un système d'indexation simple, issu d'une taxonomie élaborée à
partir, notamment, de l'expérience des usagers.
Nous utiliserons donc, comme structure d’indexation des contenus, les lacs de données qui
préservent les documents dans leur forme originelle tout en permettant leur interrogation
efficace grâce à un système de gestion de métadonnées. Ces métadonnées pourront être
connues dès l’acquisition des données, enrichies par des annotations manuelles ou issues
des outils de fouille de données. Cette dernière sera utilisée pour mettre en évidence des
thématiques originales de manière automatique, découvrir des clusters, calculer des
similarités entre différentes entités (ex. documents, sites, auteurs). Dans ce projet, nous
cherchons à rendre le résultat de ces techniques interprétable afin que l’utilisateur final
comprenne au mieux les structurations proposées.
Les résultats de ces analyses permettront de préciser et d'enrichir la taxonomie . La
description de ces entités littéraires originales requiert l'élaboration d'un outil fondé à la fois
sur les structures numériques et la perception des usagers. Loin d'être inconciliables, nous
postulons que ces deux approches sont complémentaires voire que la robustesse d'un outil
analytique repose sur ce double ancrage scientifique. Cette taxonomie permettra d'élaborer
une ontologie simple (sur le modèle des ontologies bibliographiques) dont nous déduirons
un jeu de métadonnées utilisable pour caractériser les entités du web. Au-delà de la
constitution d’un corpus d'une dimension nouvelle dans la littérature contemporaine, notre
projet en utilisant les modèles de lacs de données et la fouille de données, révolutionne les
méthodes et les moyens de la description documentaire. La cohérence du projet repose sur
l'articulation entre différentes sciences et méthodes pour la construction et l'usage d'un objet
(en l'occurrence un corpus) : analyse des pratiques, usages et réception de ces objets, et
par ailleurs analyse de données, fouille de texte, l'ensemble servant à structurer un langage
(taxonomie, ontologie et jeu de métadonnées) qui permette d'assurer l'accès des créations
littéraires par des usagers divers tout en assurant une caractérisation rigoureuse des objets
et de leur structuration.
Le consortium comprend 2 laboratoires (littérature, information-communication;
informatique) et la BnF; il est soutenu par l’Institut International de la Francophonie. La
collaboration entre ces partenaires, déjà en cours, a permis d’amorcer les recherches et
d’éprouver empiriquement les risques et les solutions liés à ce projet.
Le projet concerne donc la communauté littéraire, mais vise à rendre disponibles à tous les
champs disciplinaires un corpus d’ampleur ainsi qu’une méthodologie novatrice. L'objectif
est bien, en déposant le corpus dans un espace de stockage de l'infrastructure HUMA-NUM,
en accord avec la MSH, de produire un outil disponible pour des approches scientifiques et
des usages larges: linguistique, statistique, informatique, recherche d'information,
Traitement automatique des langues.
Nous mettons en place, avec les partenaires adéquats, des usages pédagogiques destinés
à des publics variés. L’enjeu est de taille: aider à la pratique rédactionnelle et contribuer à
l’analyse d’une nouvelle littératie . Nous prévoyons des livrables variés dans leurs formes
comme dans leurs supports, destinés à l’accompagnement méthodologique à l’utilisation de
ce corpus.

Coordination du projet

Gilles Bonnet (MARGE)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

MARGE MARGE
ERIC Entrepôts, Représentation et Ingénierie des connaissances
BNF Bibliothèque Nationale de France

Aide de l'ANR 380 052 euros
Début et durée du projet scientifique : décembre 2019 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter