CE23 - Intelligence artificielle et science des données 2025

Apprentissage Fédéré de Confiance: Intégration de la Robustesse et de la Protection des Données – TuLIP

Résumé de soumission

L’apprentissage automatique repose généralement sur la collecte et la centralisation de données utilisateurs sur une machine unique (ou un cluster de machines) afin d'entraîner un modèle. Cependant, cette approche ne peux pas être mise en oeuvre pour des applications où les données sont trop sensibles pour être partagées. De plus, la centralisation des données entraîne des coûts computationnels élevés. L’apprentissage fédéré répond à ces enjeux en permettant à plusieurs machines (ou plusieurs clusters) de collaborer pour entraîner un modèle commun, tout en répartissant la charge de calcul et en garantissant aux utilisateurs un contrôle total sur leurs données.

Bien que prometteur, l’apprentissage fédéré reste particulièrement vulnérable à plusieurs types d’attaque (souvent appelés attaques Byzantines), telles que l’empoisonnement des données ou la manipulation des gradients. Ces failles peuvent avoir des conséquences graves, notamment lorsque les modèles sont utilisés dans des domaines sensibles comme le diagnostic médical ou la modération de contenus en ligne. Par ailleurs, si l’apprentissage fédéré garantit aux utilisateurs la souveraineté sur leurs données, il n’offre pas nécessairement une protection totale des données utilisateurs pour autant. En effet, une fois le modèle final rendu public, il peut être exposé à des attaques visant à reconstruire les données utilisées pour son entraînement. De plus, la protection des données utilisateurs peut également être menacée par d’autres participants au sein du système. Ces incertitudes posent la question de la conformité des solutions d’apprentissage fédéré aux réglementations sur la protection des données, telles que le RGPD.

Pour répondre à ces défis, plusieurs travaux récents ont exploré des solutions basées sur des techniques comme la confidentialité différentielle ou le chiffrement. Toutefois, ces approches sont souvent mises en place au prix d'une perte d’efficacité et reposent sur des hypothèses qui ne prennent pas en compte les menaces liés aux attaques Byzantines.

Notre projet de recherche vise à concevoir de nouvelles solutions garantissant à la fois la robustesse face aux attaques Byzantines et une protection efficace des données personnelles, tout en minimisant les pertes de performance. Plus précisément, nous proposons de revisiter la littérature existante sur la robustesse et la confidentialité en apprentissage fédéré. Nous estimons que certains modèles de menace actuels sont excessivement pessimistes et éloignés des scénarios d’attaque réalistes. Nous défendons une approche qui privilégie des modèles d’attaque plus concrets, potentiellement moins généraux, mais permettant une analyse plus fine des garanties de sécurité. Nous étudierons notamment comment ces méthodes peuvent être adaptées aux modèles d’IA de nouvelle génération, tels que les modèles de langage, afin d’assurer leur déploiement en toute sécurité et dans le respect de la protection des données personnelles.

Rafael Pinot (SORBONNE UNIVERSITÉ)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LPSM SORBONNE UNIVERSITÉ

Aide de l'ANR 251 163 euros
Début et durée du projet scientifique : décembre 2025 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.