CE23 - Intelligence artificielle et science des données 2025

Mise à profit des données synthétiques provenant des modèles génératifs – LSD

Résumé de soumission

Les modèles génératifs sont des modèles d'apprentissage automatique capables d'apprendre et de reproduire la structure sous-jacente des données. Ces modèles sont maintenant si puissants, qu´ils peuvent générer des données synthétiques, indistinguables de données réelles. Cela ouvre la voie à un accès quasi illimité à des données synthétiques ultra-réalistes, pouvant être utilisées pour l´augmentation de données. Dans des domaines comme la physique, les applications cliniques et la conception de protéines, l´ajout de données synthétiques améliorent les performances en généralisation des modèles.

Avec l´augmentation du nombre de contenus synthétiques, indiscernables des données réelles, les systèmes déployés font face à un défi sans précédent : gérer les données synthétiques aux côtés des données authentiques. Les modèles "auto-consommants", qui se ré-entraînent sur leurs propres données générées, deviennent une préoccupation croissante en IA générative. Ce processus récursif peut mener une accumulation de biais ou d'inexactitudes, entraînant des dégradations critiques du modèle, appelées effondrement du modèle.

En s'appuyant sur l'expertise complémentaire des partenaires en modélisation générative, optimisation et logiciels open source, ce projet vise à explorer les risques et les bénéfices des interactions entre les algorithmes d'apprentissage et les données synthétiques. Un objectif de déterminer dans quelle mesure les modèles génératifs peuvent améliorer les performances sur des tâches externes. Un autre objectif est de quantifier la ¨vitesse d'effondrement¨ des modèles "auto-consommants" et de développer des stratégies pour l'éviter. Plus largement, le projet examinera comment les modèles génératifs se comportent et interagissent dans des environnements partagés avec plusieurs agents, notamment en étudiant leurs influences mutuelles, ainsi que l'impact de ces interactions sur les performances globales.

Quentin BERTRAND (INSTITUT NATIONAL DE LA RECHERCHE EN INFORMATIQUE ET AUTOMATIQUE)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

INSTITUT NATIONAL DE LA RECHERCHE EN INFORMATIQUE ET AUTOMATIQUE
Mila -- Université de Montréal, Département d informatique et de recherche opérationnelle

Aide de l'ANR 335 960 euros
Début et durée du projet scientifique : février 2026 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.