TSIA - Giga-modèles - Thématiques Spécifiques en Intelligence Artificielle (Giga-modèles pour le traitement automatique du langage naturel et des données multimodales)

Construction et d'évaluation de grands modèles de langue multimodaux et inclusifs (écrit, oral, pictogrammes) pour le français général et clinique – Pantagruel

Résumé de soumission

Le projet Pantagruel est une initiative ambitieuse qui vise à développer et à évaluer des modèles linguistiques multimodaux (écrit, oral, pictogrammes) et inclusifs pour le français. Le projet s'appuie sur l'expertise de chercheurs de différentes disciplines, notamment l'informatique, le traitement du signal, la sociologie et la linguistique, afin de garantir la diversité des perspectives ainsi que la fiabilité et la pertinence des résultats. Les principales contributions du projet sont le développement de modèles autosupervisés librement accessibles pour le français, comprenant une à trois des modalités pour les domaines généraux et cliniques. Le projet ne se contentera pas de produire des modèles mais il concevra également des bancs d’essais permettant d'évaluer la généralisation de ce type de modèles en s'appuyant sur l’expérience gagnée lors des projets FlauBERT et LeBenchmark. Une part du projet sera consacrée aux biais et stéréotypes véhiculés dans les corpus d'entraînement et dans les modèles en aval. Une réflexion sera menée avec un comité éthique, pour limiter un effet amplificateur de biais au sein des corpus d'entraînement, en particulier en travaillant sur les caractéristiques démographiques des locuteurices (pour l'oral audio ou retranscrit) et des auteurices (pour une partie des données écrites). Nous pourrons ainsi comparer les modèles appris sur des corpus d'entraînement aux proportions variables pour ces caractéristiques, comme par exemple le genre. Cette étude permettra de quantifier dans quelle mesure les prédictions des modèles de langue sont des reflets fiables des corpus en amont, et de mieux contrôler la façon par laquelle ils peuvent être utilisés comme outils de recherche pour les sciences sociales. Le projet développera des composants logiciels qui faciliteront l'intégration des modèles de langage dans diverses applications et permettront le développement de solutions innovantes exploitant la puissance des modèles de langues du français multimodaux. Ces outils sont en particulier destinés aux non-informaticiens tels que ceux membres du consortium (sociologues, linguistes, médecins, orthophonistes), des chercheurs d'autres domaines ou des artistes. Le projet Pantagruel a ainsi le potentiel de faire progresser de manière significative l'état de l'art en matière de modèles de langues multimodaux et d'avoir un impact positif sur un large éventail de domaines appliqués, des soins de santé aux arts en passant par les sciences humaines et sociales.

Coordination du projet

Didier Schwab (Laboratoire d'Informatique de Grenoble)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LLF laboratoire de linguistique formelle
CREST Centre de Recherche en Economie et Stastistique - CREST
INA Institut national de l'audiovisuel
LIG Laboratoire d'Informatique de Grenoble
LIA Laboratoire d'Informatique d'Avignon

Aide de l'ANR 599 996 euros
Début et durée du projet scientifique : September 2023 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter