Transfert Learning du "Big Data" au "Small Data": Permettre l'identification de Biomarqueurs de Neuroimagerie Anatomique pour les Pathologies Psychiatriques – Big2small
Apprentissage automatique pour le transfert de connaissance du “big data” au “small data”: Potentialiser la découverte de biomarqueurs en neuro-imagerie psychiatrique
Contrairement à de nombreuses autres spécialités médicales, la psychiatrie ne dispose pas de mesures quantitatives objectives (dosage sanguin) pour guider les cliniciens dans le choix d'une stratégie thérapeutique. L'anatomie cérébrale est une empreinte des antécédents génétiques et environnementaux de l'individu.
L'identification de signatures cérébrales pronostiques de l'évolution clinique ou de la réponse au traitement ouvrirait la voie à une médecine personnalisée en psychiatrie.
L'identification des signatures cérébrales pronostiques de l'évolution clinique ou de la réponse au traitement ouvrirait la voie à une médecine personnalisée en psychiatrie. De nombreuses initiatives internationales ont assemblé d'importants jeux de données (N>2000). Cependant, la grande hétérogénéité et la conception transversale de ces jeux de données limitent la possibilité d’apprendre des outils de pronostic de l’évolution clinique au niveau individuel (réponse au traitement, évolution clinique). D'autres initiatives ont récemment donné lieu à des bases de données plus petites et plus homogènes sur le plan clinique (N< 500), avec le suivi longitudinal permettant d'évaluer la réponse au traitement et la transition vers la maladie chez les patients à risque. Le coût élevé par patient (>10K€) limite la faisabilité du passage à l'échelle (au moins quelques milliers) nécessaire pour construire des modèles prédictifs suffisamment reproductibles pour une application clinique courante.
Ce projet propose 3 stratégies d'apprentissage par transfert d’apprentissage (réseaux de neurones profonds, clustering, approche dimensionnelle du continuum des pathologies psychiatriques) pour réconcilier les grands jeux de données hétérogènes avec les petits jeux homogènes et longitudinaux. Ces 3 stratégies se décomposent en 3 étapes : (i) modélisation de la variabilité générale du cerveau sur de grandes bases de la population générale ; (ii) transfert (réglage fin, etc.) sur des bases cas-témoins (de taille moyennes) pour focaliser les modèles sur une pathologie spécifique ; (iii) transfert final sur de «petites « cohortes longitudinales pour permettre l'apprentissage des modèles pronostiques de l'évolution clinique ou de la réponse aux traitements. Le succès de ce projet démontrerait que l'IA pourrait bénéficier au soin en santé mentale, qui est une des causes principales d'invalidité et de coûts directs et indirects dans le monde.
5) résultats
Dans le contexte de la prédiction individuelle (diagnostic, pronostic) à partir de l'imagerie cérébrale en utilisant l'apprentissage supervisé classique sur un seul jeu de données, nous avons démontré que, contrairement à la croyance dominante, le Deep Learning (DL) ne surpasse pas le Machine Learning Classic (MLC). Cependant, le véritable avantage de l'apprentissage profond provient uniquement des stratégies d'apprentissage par transfert. Plus précisément, nous avons proposé un réseau convolutif profond basé sur l'apprentissage contrastif qui peut être pré-entraîné sur de grands ensembles de données hétérogènes en exploitant des informations de base telles que l'âge du sujet. Ce réseau extrait une représentation de données qui peut être transférée efficacement à de petits ensembles de données cliniques pour augmenter la prédiction de troubles psychiatriques complexes qui surpasse largement le MLC.
Dans le contexte de la découverte de sous-types (qui consiste à trouver des sous-groupes interprétables et cohérents (clustering non supervisé) de patients), nous avons proposé deux modèles de clustering transférant les connaissances de grands jeux de données de sujets contrôles. Nous avons présenté deux modèles : le premier est basé sur l'apprentissage automatique standard, tandis que le second utilise des réseaux profonds. Les modèles exploitent le jeux de données de sujets contrôles avec un modèle supervisé pour trouver des sous-espaces qui contrastent avec le jeux de données cliniques sur lequel le clustering est effectué, en s'assurant que les sous-groupes identifiés sont spécifiques à la pathologie d'intérêt.
Contrairement à de nombreuses autres spécialités médicales, la psychiatrie ne dispose pas de mesures quantitatives objectives (dosage sanguin) pour guider les cliniciens dans le choix d'une stratégie thérapeutique. L'anatomie cérébrale est une empreinte des antécédents génétiques et environnementaux de l'individu. L'identification des signatures cérébrales pronostiques de l'évolution clinique ou de la réponse au traitement ouvrirait la voie à une médecine personnalisée en psychiatrie. De nombreuses initiatives internationales ont regroupé d'importants jeux de données (>10K sujets pour la population générale, ~2K pour les cohortes de patients/témoins en santé). Cependant, leur grande hétérogénéité et leur conception transversale empêchent d'apprendre les prédicteurs du pronostic individuel des patients (réponse au traitement, évolution clinique). D'autres initiatives ont récemment donné lieu à des bases de données plus petites et plus homogènes sur le plan clinique (N<500), avec le suivis longitudinal permettant d'évaluer la réponse au traitement et la transition vers la maladie chez les patients à risque. Le coût élevé par patient (>10K€) limite la faisabilité du passage à l'échelle (au moins quelques milliers) nécessaire pour construire des modèles prédictifs suffisamment reproductibles pour une application clinique régulière.
Ce projet propose 3 stratégies d'apprentissage par transfert (réseaux de neurones profonds, clustering, approche dimensionnelle du continuum des pathologies psychiatriques) pour réconcilier grandes et petites données. Ces 3 stratégies se décomposent en 3 étapes : (i) modélisation de la variabilité générale du cerveau sur de grandes bases de la population générale ; (ii) transfert (réglage fin, etc.) sur des bases cas-témoins (de taille moyennes) pour focaliser les modèles sur une pathologie spécifique ; (iii) transfert final sur de "petites " cohortes longitudinales pour permettre l'apprentissage des modèles pronostiques d'évolution clinique ou de la réponse aux traitements. Le succès de ce projet démontrerait que l'IA pourrait bénéficier au soin en santé mentale, qui est la principale cause d'invalidité et de coûts directs et indirects dans le monde.
Coordination du projet
Edouard Duchesnay (Edouard Duchesnay)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
NEUROSPIN Edouard Duchesnay
Aide de l'ANR 542 726 euros
Début et durée du projet scientifique :
août 2020
- 48 Mois