CE45 - Mathématiques et sciences du numérique pour la biologie et la santé 2019

Apprentissage statistique fédéré pour une nouvelle generation de méta-analyses de données biomédicales sécurisés et à grande échelle – FED-BIOMED

Fed-BioMed

Apprentissage statistique fédéré pour une nouvelle génération de méta-analyses de données biomédicales sécurisées et à grande échelle

Apprentissage fédéré fiable dans le domaine de la santé

Les objectifs initiaux du projet consistaient à développer un cadre méthodologique et informatique pour l'application efficace de l'apprentissage fédéré dans le domaine de la santé, avec un accent particulier sur les applications d'imagerie médicale.<br />Du point de vue méthodologique (WP1), la proposition a identifié le besoin de développer de nouveaux cadres adaptés à la fédération de modèles probabilistes (tels que les processus Gaussiens et les réseaux de neurones Bayésiens). De nouvelles techniques d'optimisation ont été envisagées pour permettre l'optimisation dans un cadre fédéré, ainsi que le développement de mécanismes sécurisés pour le partage des paramètres.<br />Ce type de méthodologie était destiné à être appliqué en recherche translationnelle (WP2), en particulier dans le domaine de l'imagerie-génétique dans les applications d'imagerie cérébrale, et sur l'analyse d'images cardiaques dans une étude multicentrique française.<br />Du point de vue du calcul (WP3), le projet a proposé le développement d'une bibliothèque logiciel dédiée et d'une infrastructure réseau pour déployer l'apprentissage fédéré dans les applications cibles.

Apprentissage fédéré en santé : de la théorie à la pratique

Le projet contribue au domaine émergent de l'apprentissage fédéré.
Il étend le paradigme d'optimisation fédérée au cadre Bayésien et développe de nouvelles approches pour la modélisation et la prédiction probabilistes à partir de données hétérogènes de dimension potentiellement élevée. Du point de vue technique, nous développons notre cadre d'apprentissage fédéré à travers un cadre logiciel autonome qui peut être déployé en toute sécurité sur différents centres et collaborateurs. Enfin, du point de vue translationnel, nous travaillons à démontrer notre initiative d'apprentissage fédéré sur plusieurs applications cliniques avec une variété de partenaires hospitaliers et de recherche.

Résultats

WP1.
- Nous avons développé un nouveau cadre Bayésien pour l'apprentissage fédéré avec des données hétérogènes et manquantes. L'approche proposée a formulé l'apprentissage fédéré comme un problème de modélisation hiérarchique, où la variabilité est modélisée de manière cohérente au niveau des clients et du serveur. L’approche proposée a été démontrée sur l’analyse de données hétérogènes (images cérébrales multimodales et informations cliniques) dans la maladie d’Alzheimer.
- Nous avons proposé un nouveau schéma d'apprentissage fédéré appelé « clustered sampling », dans lequel l'hétérogénéité des clients peut être mieux prise en compte lors de l'étape d'agrégation des paramètres, conduisant à une amélioration de la vitesse de convergence et de la robustesse du modèle fédéré final.
- Nous avons étudié un nouveau type de faiblesse des schémas d'apprentissage fédéré standard, appelé « free-riding ». Cette faiblesse survient lorsque des clients malins développent des stratégies pour obtenir le résultat d'apprentissage fédéré (le modèle final), sans toutefois apporter de données lors du processus d'optimisation.

WP2.
Nous consolidons et préparons actuellement l'application de notre référentiel sur les données fournies par les partenaires.
Du côté administratif, nous avons obtenu l'agrément du service sécurité d'Inria pour le premier déploiement d'une version simplifiée du logiciel sur les données hospitalières, et nous discutons actuellement avec le DPO Inria pour l'application complète de notre framework compatiblement avec le RGPD.

WP3.
Une intense activité de développement a été menée depuis le début du projet. Un article scientifique sur le logiciel Fed-BioMed a été publié sur le workshop « Distributed and Collaborative Learning » 2020, organisé par NVIDIA. Le logiciel est accessible sur la page du projet : fedbiomed.gitlabpages.inria.fr

Perspectives

Dans les prochaines étapes du projet

- nous étudierons les mécanismes de confidentialité liés à notre cadre Bayésien et développerons de nouvelles stratégies pour tenir compte de la contribution asynchrone des clients à l'apprentissage fédéré.
- nous visons à obtenir l'approbation complète pour l'utilisation de notre logiciel, et pursuivre l'installation et la configuration de Fed-BioMed dans les applications proposées.
- nous commencerons avec l'application de la méthodologie et du logiciel sur les applications cliniques proposées

Productions scientifiques et brevets

- 5 articles publiés dans des conférences scientifiques à fort impact (e.g. ICML, AISTATS, IPMI, MICCAI)
- Forte activité de diffusion à travers des conférences invitées
- Organisation de la Session spéciale sur Security and Fairness in Collaborative Healthcare Data Analysis (https://biomedicalimaging.org/2021/special-sessions/) lors de la dernière édition du Symposium international sur l'imagerie biomédicale (ISBI 2021)
- dépôt APP pour le logiciel Fed-BioMed
- Accord de collaboration avec Accenture Labs pour contribuer au développement au logiciel Fed-BioMed
- Collaboration avec le Centre Hospitalier Antoine Lacassagne de Nice
- Financement complémentaire obtenu auprès d'Université Côte d'Azur et d'Inria dans le cadre du Programme National de Recherche en Intelligence Artificielle

Résumé de soumission

L'application de l'apprentissage statistique aux données biomédicales impose des contraintes critiques. Les modèles doivent respecter l’anonymat et la non transférabilité des informations d’un centre à l’autre, tout en tenant compte de l’énorme dimension et variabilité des données. Fed-BioMed relèvera ce défi en reformulant les approches non paramétriques Bayésienne dans le domaine du federated learning. L'apprentissage des données complexe et hétérogènes pourra alors être effectué sans partage d’informations individuelles, mais uniquement avec des distributions de paramètres. Les coûts de communication et le risque de fuite d'informations seront réduits en s’appuyant sur les méthodes d’inférence variationnelle et de differential privacy. Fed-BioMed nous permettra d'exploiter les données issues de deux des plus grandes études multicentriques disponibles: l'analyse imagerie-génétique dans l'initiative ENIGMA et la prévision de la mort subite à partir d'un réseau de sites cliniques Français.

Marco Lorenzi (Centre de Recherche Inria Sophia Antipolis - Méditerranée)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Inria Centre de Recherche Inria Sophia Antipolis - Méditerranée
CMIC University College London / Centre for Medical Image Computing
Illinois Institute of Technology / ARMOUR COLLEGE OF ENGINEERING

Aide de l'ANR 196 059 euros
Début et durée du projet scientifique : février 2020 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.