CE25 - Sciences et génie du logiciel - Réseaux de communication multi-usages, infrastructures numériques

CITADEL : Confidentialité et mitigation du biais dans l'apprentissage fédéré pour la santé numérique – CITADEL

Résumé de soumission

L'apprentissage fédéré (FL) est un paradigme prometteur qui prend de l’ampleur dans le domaine de l'apprentissage automatique préservant la confidentialité des systèmes de edge computing. Grâce au FL, plusieurs propriétaires de données appelés clients peuvent produire de manière collaborative un modèle sur leurs données privées, sans avoir à envoyer leurs données à des prestataires de services externes. Le FL a été rapidement adopté dans plusieurs domaines d’application, telles que la santé numériques, qui génère aujourd’hui le plus grand volume de données. Dans les systèmes de santé, les problèmes de confidentialité et de biais sont particulièrement importants.

Bien que le FL soit un premier pas vers plus de confidentialité en gardant les données locales à chaque client, cela n'est pas suffisant puisque les paramètres du modèle FL partagés sont vulnérables à des attaques contre la vie privée, comme le démontrent des travaux récents. Il est donc nécessaire de concevoir de nouveaux protocoles FL qui soient robustes face à de telles attaques. En outre, les clients FL peuvent disposer de données très hétérogènes et déséquilibrées, ce qui peut entraîner un biais du modèle FL, avec des disparités de traitement entre des groupes socio-économiques et démographiques. Des études récentes montrent que l'utilisation de l'IA peut davantage exacerber les disparités entre les groupes, et que le FL peut être un vecteur de propagation du biais entre les différents clients FL. Dans ce contexte, des travaux parus récemment dans ICDE, NDSS et AAAI montrent que le biais, la confidentialité et la préparation des données (pour corriger les valeurs manquantes ou dupliquées) sont en concurrence ; les traiter indépendamment – comme cela se fait habituellement – peut avoir des effets de bord négatifs les uns sur les autres.

Par conséquent, il est important de proposer une méthode multi-objectifs d’atténuation du biais, de protection contre les menaces de confidentialité, et de préparation des données dans le FL. Cela est particulièrement difficile dans le FL où aucune connaissance globale des informations statistiques sur l’ensemble des données hétérogènes n’est disponible, une connaissance qui est nécessaire dans les techniques classiquement utilisées dans l’état de l’art. Le projet CITADEL relève ces défis et vise précisément à aborder les problèmes à l'intersection de la préparation des données FL, de leur confidentialité et de leur biais, à travers : (i) de nouveaux protocoles FL distribués ; (ii) Une approche multi-objectifs pour prendre en compte les aspects de confidentialité, d’équité et de qualité, ces objectifs étant antagonistes ; (ii) Application de ces techniques à deux cas d'utilisation de la santé numérique basée sur FL avec des données médicales réelles.

Coordination du projet

Sara Bouchenak (Centre national de la recherche scientifique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIRIS Centre national de la recherche scientifique
LIFO Institut national des sciences appliquées Centre Val de Loire
HCL_DRS Hospices Civils de Lyon - Direction de la Recherche en Santé
MEERSENS MEERSENS

Aide de l'ANR 670 481 euros
Début et durée du projet scientifique : January 2025 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter