TSIA - Giga-modèles - Thématiques Spécifiques en Intelligence Artificielle (Giga-modèles pour le traitement automatique du langage naturel et des données multimodales)

Evaluation intrinsèque et extrinsèque des biais dans les grands modèles de langue – InExtenso

Résumé de soumission

Les giga modèles de langue sont le couteau suisse du traitement automatique des langues (TAL) actuel. Ils surpassent souvent l’état de l’art pour des tâches telles que l’étiquetage en parties du discours, la classification des textes et la reconnaissance des entités nommées, ouvrant ainsi la voie à une myriade d’applications pour l’utilisateur final. Cependant, ces modèles présentent des problèmes éthiques majeurs, notamment leur impact environnemental et le fait qu’ils reflètent et amplifient les biais stéréotypés, qui ont à leur tour un impact disproportionné sur les groupes sociaux historiquement défavorisés. Il est urgent de s’attaquer à l’impact sociétal du TAL puisque les applications que nous développons, comme chatGPT, sont désormais directement mises à disposition des utilisateurs finaux. La détection et l’atténuation des biais est donc devenue un domaine de recherche actif au cours des dernières années, se concentrant principalement sur les modèles de langue masqué tels que BERT, sur l’anglais et sur le contexte social d’Amérique du Nord. Plusieurs sources de biais ont été identifiées dans le pipeline du TAL, mais l’interconnexion entre les sources et l’impact global de chaque source sur les applications en aval reste flou. Dans ce projet, nous voulons observer l’ensemble du pipeline, du point de vue intrinsèque (au sein du modèle lui-même), du point de vue de la tâche de pré-entrainement (dans le cas des modèles auto-régressif, génération de texte), sur certaines applications aval. Nous avons choisi de nous concentrer sur deux types d’applications médicales : l’aide au diagnostic de la maladie mentale et l’extraction d’informations à partir de dossiers cliniques à des fins de santé publique telles que l’inclusion de patients dans des essais cliniques. Le projet fournira des
corpus et des méthodes pour une évaluation globale des biais dans les modèles de langue du français, ainsi que des études pour approfondir la compréhension des biais dans les pipelines cliniques de TAL et l’impact environnemental de l’intégration de ces modèles en santé numérique.

Coordination du projet

Karën Fort (Laboratoire lorrain de recherche en informatique et ses applications)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LORIA Laboratoire lorrain de recherche en informatique et ses applications
CHU Rouen CENTRE HOSPITALIER UNIVERSITAIRE DE ROUEN
LISN Laboratoire Interdisciplinaire des Sciences du Numérique

Aide de l'ANR 581 600 euros
Début et durée du projet scientifique : September 2023 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter