TSIA - Giga-modèles - Thématiques Spécifiques en Intelligence Artificielle (Giga-modèles pour le traitement automatique du langage naturel et des données multimodales) 2023

Grands modèles de langue adaptables et souverains pour le domaine médical français – MALADES

Résumé de soumission

L'arrivée récente des Grands Modèles de Langue (Large Language Models ou LLMs) et de leurs outils associés pour le grand public laissent apparaître des enjeux majeurs pour la société. Parmi les nombreux domaines qui sont, ou vont être, impactés par ces modèles génératifs, le domaine biomédical est un de ceux qui actuellement attirent le plus l'attention des industriels, des chercheurs, mais également du grand public. En effet, le besoin d'outils et d'applications potentielles paraît immense, que ce soit, par exemple, au niveau du traitement de documents textuels, d'imagerie médicale, ou encore d'interaction par la parole. De par la nature sensible des données à caractère personnel manipulées et des craintes de la société associées aux outils d'aide à la décision, les travaux en traitement automatique du langage (TAL) se doivent d'innover en considérant les problématiques inhérentes à ce domaine. Dans le cadre du projet MALADES, nous proposons des approches innovantes pour l'intégration de LLMs dans les centres de santé. Il s'agit de doter ces centres d'outils du TAL dérivés des LLMs et adaptés pour le domaine biomédical en gardant une souveraineté des modèles et un contrôle complet de leurs données de santé. Les travaux que nous menons se concentrent sur quatre axes de recherche : 1) l'étude des aspects légaux et éthiques en France des LLMs pour le domaine biomédical, 2) l'intégration d'une interaction vocale des LLMs au moyen d'approches end-to-end, incluant la collecte massives de données de parole, 3) La collecte de nouveaux cas d'étude originaux orientés pour l'évaluation de modèles de langue génératifs, et 4) l'intégration de LLMs dynamiques et souverains pour le domaine biomédical, déployés sur des ressources matérielles contraintes, et intégrant des approches originales fournissant aux LLMs des capacités supplémentaires aux moyens de bases de connaissances maîtrisées et vérifiées.

Richard Dufour (Laboratoire des Sciences du Numérique de Nantes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LS2N Laboratoire des Sciences du Numérique de Nantes
LIS Laboratoire d'Informatique et Systèmes
LIA Laboratoire Informatique d'Avignon
CHUN CHU de Nantes

Aide de l'ANR 674 060 euros
Début et durée du projet scientifique : septembre 2023 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.