CE38 - Révolution numérique : rapports au savoir et à la culture

Valorisation d'archives multimédia : Compréhension automatique multimodale du langage pour de nouvelles interfaces intelligentes de médiation et de transmission des savoirs – ARCHIVAL

ARCHIVAL : Valorisation d'archives multimédia

ARCHIVAL : Valorisation d'archives multimédia <br />Compréhension automatique multimodale du langage pour de nouvelles interfaces intelligentes de médiation et de transmission des savoirs.

Méthodes de compréhension automatique multimodale du langage pour de nouvelles inyterfaces intelligents de médiation et de transmission des savoirs

Approche expérimentale et interdiscipliniare

La chaire UNESCO ITEN a conçu avec ses partenaires un cadre interdisciplinaire de travail sur les Humanités Numériques pour ce projet, structuré en 5 WorkPackages (WP). Le WP1 aura pour mission d’assurer la direction, la coordination, le suivi scientifiques et l’organisation des séminaires, il inclura la préparation des dossiers corpus sur la thématique de l’“autogestion”, l’exportation des métadonnées, la définition des cas d’usage, la description des parcours d’utilisateur et le Plan de Gestion des Données (PGD). Le WP2 sera dédié à la production d’un espace de représentation sémantique multimodal qui sera exploité dans le WP3 (AMU) pour synthétiser les résultats de l’interrogation de ces documents effectué grâce aux interfaces innovantes définies dans le WP4 en exploitant la complémentarité des experts IHM d’FMSH-ITEN et d’Orange Labs. Le WP5 est dédié à l’évaluation, tout d’abord des évaluations intrinsèques des modèles définis dans WP2 et WP3, puis la FMSH, la chaire UNESCO ITEN et Orange Labs participeront, selon des méthodes agiles, à l’évaluation de l’appropriation des outils par les usagers au sein du Centre Numérique d’Innovation Sociale (UP8-ENEDIS) et de la bibliothèque-laboratoire de la FMSH. Le schéma ci-dessous représente l’architecture du projet ARCHIVAL.

Résultats

WP1
- constitution du corpus, réalisé à partir du fonds mixte d’autogestion de la FMSH.
- extraction d'un réseau de documents issus de Wikipedia Autogestion dans le réseau d'hyperliens.
- travail éditorial SHS d’interprétation sémantique et analyse automatique pour l'ontologie.
- plateforme ARCHANNOT d'annotations
- corpus collectés traités par des suites d’outils linguistiques pour rajouter des métadonnées extraites automatiquement

WP2
- Baselines de création de liens ont été explorées :
- Approche intra-collection par comparaison de contenus : segmentation thématique des contenus et appariement des segments par tf-idf, LDA ou Doc2vec.
- Approche de prédiction de liens par apprentissage : exploitation des mécanismes d’attention pour extraire des mots importants et l’explication des liens.
- Approche indirecte extra-collection : prédiction de liens au sein de documents en utilisant un corpus encyclopédique, Wikipedia, comme base de connaissance.
- Ontologie réalisée pour mettre en relation des documents associés aux mêmes entrées du thesaurus. Expériences sur des enrichissements automatiques des annotations expertes en cours (approches de type Topic Modeling ou Hierarchical Topic Modeling)

WP3
- Les premiers travaux ont porté sur la compréhension de documents à travers l'adaptation des méthodes de Compréhension de Lecture.
- Baseline d'interrogation de documents est disponible sous forme d'une API exploitable dans les prototypes.

WP4
- Interfaces développées pour visualiser les documents numérisés et mieux appréhender la structure et les formats de représentation des données.
- Prototypes de visualisation des liens produits dans le WP2 et d’interrogation de documents développés au WP3 et toutes premières interfaces d’interrogation de contenus archivés avec une représentation de la réponse intégrée à la visualisation des documents.

Perspectives

La première période du projet a permis de mettre en œuvre une véritable dynamique pluridisciplinaire au sein du consortium, avec des échanges réguliers entre chercheurs en STIC et chercheurs en SHS. Après une première phase d’acculturation et de définition des attentes respectives (en termes de contenus, d’annotations, d’usages, d’évaluations, etc.), les réunions régulières du consortium sont l’occasion d’un dialogue riche et d’une approche agile combinant développement d’une preuve de concept et validation. Ces échanges ont également donné lieu à la création de corpus riches pour le projet.

Les premières interfaces développées par Orange ainsi que la conception de plusieurs cas d’usage d’interfaces de navigation réalisées par la FMSH en début de projet, ont constitué de premiers résultats significatifs pour l’ensemble des acteurs. L’interface d’Orange offre une base solide pour les développements à venir dans la seconde partie du projet, après validation via les interfaces intermédiaires des choix technologiques.

Travaux des prochaines périodes
• Intégrer des documents provenant d’autres fonds, Gallica, INA, Persée, des conventions sont en cours de signature.
• Exploiter les données annotées par la FMSH pour évaluer et affiner les méthodes de prédiction et d’explication de liens entre documents.
• Étendre les travaux à des espaces de représentation multimodaux, notamment les contenus audiovisuels (utilisation des films)
• Concevoir les interfaces de médiation et de valorisation des archives

Productions scientifiques et brevets

Robin Brochier, Frédéric Béchet. Predicting Links on Wikipedia with Anchor Text Information. ACM SIGIR Conference on Research and Development in Information Retrieval, Jul 2021

hal.archives-ouvertes.fr/hal-03233373

Conférence invitée au colloque Humanistica 2021. Guillaume Gravier. L'intelligence artificielle pour décrire, indexer et explorer des collections multimédias : comment faire sans Google ?

humanistica2021.sciencesconf.org/356765

Cinq Séminaires Ateliers Annotations Master 1 « Humanités Numériques » Université Paris8 (FMSH / Chaire UNESCO ITEN / LIS-AMU)

Résumé de soumission

Le numérique transforme l’accès aux savoirs qui restent encore difficilement appréhendables par les publics, malgré de nombreuses tentatives pour indexer, structurer les textes, vidéos et images selon des référentiels structurés. Très souvent présentées sous forme de listes exclusivement fonctionnelles, les interfaces de résultats de recherche offrent peu de possibilités de navigation et d’exploration et articulent mal les contenus entre eux.
Le projet pluridisciplinaire et multi-acteurs, ARCHIVAL vise à faire collaborer des chercheurs issus des Sciences de l’Information et de la Communication et de l’Informatique autour de la valorisation des archives et du partage des savoirs pour les arts, la culture et le patrimoine. Il s’est structuré autour des questionnements suivants : Quel rôle peuvent jouer les méthodes de compréhension par les machines dans la réinterprétation de fonds d’archives thématiques ? Selon quelles modalités des interfaces de médiation des contenus peuvent-elles exploiter des résultats générés par les méthodes actuelles d’Intelligence Artificielle ?
Les méthodes de « compréhension automatique du langage » permettent de structurer l’information et de générer des cartographies de l’espace sémantique qui raisonnent comme un maillage de l’information. Les méthodes neuronales de type « end-to-end », permettent d’apprendre directement des représentations (projections dans des espaces numériques) en fonction d’une tâche sans avoir à spécifier explicitement les différents niveaux d’analyse nécessaires à sa réalisation. Les espaces vectoriels sémantiques ainsi construits permettent de définir des relations entre des mots et des documents, mais aussi d’utiliser ces représentations pour générer des sorties prenant en compte le sens, la « science latente » contenue dans les documents, dépassant en cela la simple extraction de termes (mots clés, entités, triplets RDF). Parallèlement les méthodes de « compréhension de document par les machines » (Machine Reading Comprehension) permettent d’interroger des documents par des questions naturelles pour en découvrir des extraits pertinents. Un document est alors appréhendé au prisme des relations qu’il entretient avec d’autres documents et des questions portant sur son contenu, mais aussi au travers des synthèses (résumés, cartographies) qui peuvent être générées dynamiquement suite à son analyse.
Un des objectifs scientifiques majeurs du projet ARCHIVAL est d’opérer cette compréhension de manière multimodale en exploitant des documents mêlant paroles, textes, images fixes et vidéos. Les méthodes neuronales rendent possible l’intermodalité grâce à la définition d’espaces vectoriels de représentations communs aux différentes modalités. Exploiter cette convergence, qui a donné lieu à des résultats spectaculaires, ouvre de nouvelles possibilités pour la médiation par le numérique.
Les équipes d’ARCHIVAL s’interrogeront sur les manières de structurer une collection de documents hétérogènes en faisant apparaître de manière explicite les liens implicites, de révéler la nature de ces liens et de les valoriser de manière intelligible par la médiation d’interfaces ergonomiques qui garantissent une appropriation réussie des contenus. Un périmètre de corpus a été délimité avec le fonds mixte sur l’autogestion de la FMSH, récemment labellisé CollEx, qui sera complété par le fonds audiovisuel universitaire de Canal-U. L’analyse et la valorisation de ce fonds représente un intérêt pour les SHS dans un contexte où il devient nécessaire de repenser structurellement de nouveaux modèles de développement socioéconomiques (autonomie démocratique, économie sociale et solidaire, développement alternatif…).
En termes d’impact, ARCHIVAL s’attachera à mettre en œuvre un cœur technologique générique pouvant être transposé par la suite à d’autres champs d’études, valorisable par les partenaires et dont le rayonnement pourra être porté au sein du Campus Condorcet.

Ghislaine Azemard (Fondation Maison des sciences de l'homme)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LIS-AMU Laboratoire d'Informatique et Systèmes
Orange ORANGE
IRISA Institut de Recherche en Informatique et Systèmes Aléatoires
FMSH Fondation Maison des sciences de l'homme

Aide de l'ANR 736 129 euros
Début et durée du projet scientifique : décembre 2019 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.