TSIA - Giga-modèles - Thématiques Spécifiques en Intelligence Artificielle (Giga-modèles pour le traitement automatique du langage naturel et des données multimodales) 2023

LLM à jour pour tous – LLM4all

Résumé de soumission

Lorsqu'ils sont de taille suffisante, les grands modèles de langage (LLM) exhibent des capacités émergentes remarquables: apprendre en contexte, décomposer un problème en parties, etc. Ces capacités émergentes, ainsi que les performances obtenues sur de nombreuses tâches, tendent à prouver que la taille est un critère important pour la qualité des modèles généralistes. Le projet LLM4all ambitionne donc de développer de grands modèles et vise à résoudre deux problèmes fondamentaux de ces LLM: les mettre à jour automatiquement, et réduire leur besoin en puissance de calcul pour pouvoir les déployer plus largement. Concernant le premier point, il est en effet insuffisant de simplement poursuivre l'apprentissage des LLM sur de nouvelles données, car le LLM "oubliera" des connaissances précédentes. Il faut donc ré-entraîner le modèle sur des données anciennes et nouvelles, ce qui coûte cher et explique pourquoi même des modèles commerciaux comme GPT-3 ne disposent que d'informations datées d'avant 2021. Nous proposerons des solutions à ce problème, notamment basées sur des approches combinant réseaux neuronaux grossissants et parcimonie, et diffuserons des versions automatiquement mises à jour de LLMs multilingues, par exemple basés sur BloomZ et Whisper. Concernant la réduction du coût d'utilisation des modèles, nous proposerons plusieurs solutions en fonction de l'usage cible: soit des optimisations développées spécifiquement pour un modèle particulier et qui permettent d'échanger vitesse contre mémoire; soit du calcul collaboratif permettant de gagner en vitesse en répartissant les calculs sur plusieurs ordinateurs; soit des approches parcimonieuses comme les mixtures d'experts particulièrement bien adaptées aux réseaux grossissants; soit des méthodes de distillation lorsque la tâche cible est connue. Au-delà des modèles génériques qui seront diffusés, ces approches seront validées sur deux cas d'usages en français, respectivement le résumé automatique de réunions et l'analyse des appels d'urgence du SAMU. Pour le premier, un LLM à jour sera entraîné sur un grand corpus disponible de réunions et diffusé en open source. Pour le second, un LLM sera adapté à un corpus d'appels d'urgence simulé et combiné à des informations externes, dont la voix et des ontologies médicales.

Christophe CERISARA (Laboratoire lorrain de recherche en informatique et ses applications)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LINAGORA LINAGORA GSO
PRIME DMU APHP.Centre : (Prévention-Recherche-Innovation-Médicaments et Ethique) : Produits de santé, santé publique, recherche clinique et médecine numérique
LORIA Laboratoire lorrain de recherche en informatique et ses applications
LIX Laboratoire d'informatique de l'École polytechnique

Aide de l'ANR 715 511 euros
Début et durée du projet scientifique : septembre 2023 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.