CE23 - Intelligence artificielle et science des données 2025

Modèles de Fondation pour Tables – TaFoMo

Résumé de soumission

Ce projet vise à développer des modèles de fondation pour les tableaux, en apportant aux tableaux les avancées observées pour le langage naturel : des modèles pré-entraînés qui intègrent de nombreuses informations de base et facilitent de nombreuses tâches tabulaires.

Les modèles de fondation sont des modèles d'apprentissage profond qui intègrent de riches apriori implicites grâce à un pré-entraînement approfondi sur de grands corpus, et qui sont réutilisés pour faciliter de nombreuses tâches en aval. L'exemple le plus connu est celui des grands modèles de langage (LLM). Cependant, pour les données tabulaires, qui contiennent des informations cruciales pour la plupart des organisations, l'apprentissage profond peine à apporter beaucoup d'avantages. Nous parions que cela est sur le point de changer, car le pré-entraînement pour les données tabulaires arrive à maturité. Alors que certains progrès emprunteront aux LLM (par exemple les dérivés des transformateurs), une percée nécessitera de nouvelles architectures pour traiter à la fois les données numériques et les informations relationnelles explicites, ainsi que de nouvelles procédures d'apprentissage, pour accumuler des connaissances et des antécédents à partir de corpus de tableaux. L'enjeu est de faciliter la science des données sur des sources de données complexes, où les praticiens tirent parti des connaissances d'experts. L'un de ces domaines d'application spécifiques est celui des données de santé, et nous validerons nos modèles pour des cas d'utilisation dans le domaine de la santé.

La proposition de recherche couvre tous les aspects des modèles de fondation tabulaires : développement des bonnes architectures et paradigmes d'apprentissage, pré-entraînement sur les bonnes données et validation rigoureuse des modèles.

Gael Varoquaux (INSTITUT NATIONAL DE LA RECHERCHE EN INFORMATIQUE ET AUTOMATIQUE)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

INSTITUT NATIONAL DE LA RECHERCHE EN INFORMATIQUE ET AUTOMATIQUE
LTCI Laboratoire Traitement et Communication de l'Information
STANE GROUPE

Aide de l'ANR 438 467 euros
Début et durée du projet scientifique : décembre 2025 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.