Statistique et Apprentissage pour la génomique en cellules uniques – SingleStatOmics
SingleStatomics
La variabilité inter-cellulaire est la clé pour comprendre la régulation génétique et la différenciation. Cette variabilité promet des avancées majeures, mais la complexité des données exige de nouveaux modèles. Ce projet développe des méthodes pour explorer l’identité et la différenciation cellulaires via l’intégration des données d’expression et d’épigénomique unicellulaire, grâce à une expertise unique et des collaborations internationales.
Relever le défi de l'analyse des données en cellules
La capacité de mesurer l'expression génique à l'échelle du génome ou les mutations dans de grandes populations cellulaires a révolutionné la biologie à la fin des années 1990, permettant de caractériser les sous-types de cancer et de réaliser des profils d'expression génique complets. Cependant, la génomique traditionnelle sur des échantillons en vrac masque des variations critiques de cellule à cellule au sein des échantillons. Les avancées en séquençage et en biologie cellulaire à haut débit permettent désormais des mesures à l'échelle du génome au niveau de la cellule unique, incluant l'ADN, l'ARN, les états de la chromatine et les protéines. Ce domaine émergent, la génomique en cellules uniques, révèle l'hétérogénéité intra-tissulaire dans des types cellulaires tels que les cellules T, les cellules pulmonaires et les progéniteurs myéloïdes, et contribue à la construction d'un atlas complet des cellules humaines. La variabilité cellulaire, centrale dans des processus tels que la régulation génique et la différenciation, offre un aperçu des processus moléculaires stochastiques et des rôles fonctionnels dans la prise de décision cellulaire. La génomique en cellules uniques détient un potentiel transformateur pour comprendre la régulation génique et résoudre des débats biologiques de longue date. Malgré ses promesses, la génomique en cellules uniques introduit des défis computationnels et mathématiques majeurs. Des problèmes tels que les multiplets, les taux élevés de données manquantes (~90 %), les artefacts expérimentaux et l'échelle massive des données (des millions de cellules) nécessitent de nouveaux modèles statistiques et des algorithmes évolutifs. De plus, les questions biologiques émergentes, telles que le modèle de différenciation ou l'intégration des données génétiques et épigénétiques, nécessitent des approches innovantes. Des outils analytiques dédiés sont essentiels pour exploiter pleinement le potentiel de la génomique en cellules uniques. Ce projet vise à relever les principaux défis de la génomique en cellules uniques à travers le développement de modèles mathématiques et d'outils computationnels pour trois problèmes biologiques cruciaux : (i) analyser l'hétérogénéité des échantillons et l'identité cellulaire, (ii) modéliser la différenciation cellulaire et les dynamiques de régulation génique, et (iii) explorer la multi-omique en cellules uniques. Notre consortium rassemble une expertise en statistiques de haute dimension, apprentissage automatique, transport optimal, bioinformatique et biologie des systèmes, soutenue par un large réseau de collaborateurs en France et à l'étranger. Cet effort intégré vise à faire progresser le domaine et à libérer le plein potentiel de la génomique en cellules uniques.
WP1 : Analyse de l'hétérogénéité des échantillons et de l'identité cellulaire
Modélisation de l'hétérogénéité : Les modèles à variables latentes ont permis de modéliser les données de comptage comme les données scRNA. Les modèles Poisson log-normal (PLN) multivariés ont servi de base, et des modèles graphiques ont exploré l'hétérogénéité cellulaire via des techniques comme t-SNE et UMAP.
Passage à l'échelle : Des implémentations adaptées aux données de cellule unique ont été développées, incluant des algorithmes d'estimation (approches variationnelles, stochastiques, hybrides). Des techniques comme la méthode de Nystrom et des calculs sur GPU ont amélioré la scalabilité des algorithmes.
WP2 : Modélisation de la différenciation cellulaire et des dynamiques de régulation génétique
Inférence causale des GRN : Nous avons conçu des algorithmes variationnels pour estimer des modèles graphiques basés sur le modèle PLN. Une version adaptée à l'inflation des zéros, typique des données de cellule unique, a été développée, tout comme l'étude de la précision des estimateurs.
Inférence dynamique des GRN : Nous avons utilisé des processus de Markov déterministes par morceaux (PDMP) pour modéliser la régulation génique et proposé une réduction en modèle discret simplifié. Des outils analytiques et numériques ont exploré les réseaux de régulation génique (GRN). Enfin, nous avons travaillé sur l'inférence des GRN à partir de profils transcriptionnels et conçu un algorithme de simulation basé sur la maximisation de vraisemblance.
WP3 : Exploration de la multi-omique en cellule unique
États de la chromatine : Nous avons évalué l'impact des paramètres des pipelines d'analyse sur la qualité des représentations sc-épigénomiques. Des cadres théoriques ont été proposés pour modéliser l'incertitude des coordonnées sc-ChIP-seq et gérer les tests multiples. Une approche non paramétrique basée sur des méthodes à noyau a été conçue pour tester les différences entre distributions sc-ChIP-seq.
Structure 3D du génome et intégration multi-omique : En raison du départ de certains collaborateurs (JP Vert et C. Gayral), ces parties du projet n’ont pas été développées.
WP1 : Analyse de l’hétérogénéité des échantillons et de l’identité cellulaire
Modélisation de l’hétérogénéité : Nous avons proposé le package pyPLNmodels (sur PyPI) pour utiliser le modèle Poisson log-normal, incluant une option pour l’inflation des zéros. Ce package est complété par prob-dim-red, qui implémente la PCA probabiliste gaussienne (pPCA). Nous avons également fourni le premier cadre théorique caractérisant la nature probabiliste des méthodes de réduction de dimension (SNE, UMAP). En outre, nous avons développé le package ktest, qui effectue des analyses différentielles non linéaires basées sur des méthodes à noyau.
Passage à l’échelle : Nous avons conçu un cadre algorithmique combinant deux variantes de gradient stochastique pour améliorer la scalabilité de nos méthodes. Nous avons aussi démontré la consistance des techniques de rééchantillonnage pour des tests non paramétriques.
Applications : Nous avons étudié la diversité de l’expression génique de la réponse immunitaire après vaccination, montrant comment des clones de cellules T contribuent à cette hétérogénéité.
WP2 : Modélisation de la différenciation cellulaire et des dynamiques de régulation génétique
Inférence causale des GRN : Le package PLN a été mis à jour pour permettre l’inférence de réseaux de régulation génique (GRN) à partir de données scRNASeq avec inflation des zéros.
Inférence dynamique des GRN : Nous avons développé CARDAMOM, un nouvel algorithme pour inférer un GRN à partir de données scRNA-seq temporelles. Il s’appuie sur le concept de métastabilité pour réaliser l’inférence, une première. Nous avons également obtenu des résultats analytiques pour simplifier les modèles de Markov déterministes par morceaux (PDMP), permettant de décrire le fonctionnement d’un GRN sous-jacent.
WP3 : Exploration de la multi-omique en cellule unique
États de la chromatine : Nous avons évalué l’impact des paramètres d’analyse sur les données sc-ChIP-seq et développé la première méthode de réduction de dimension (PCA) adaptée aux processus ponctuels. Ces travaux permettent de caractériser l’hétérogénéité des données sc-ChIP-seq.
Grâce à ktest, nous avons identifié une population réservoir potentielle de cellules cancéreuses liée à la résistance au traitement du cancer du sein. Enfin, nous avons proposé une méthode de tests multiples prenant en compte la distribution spatiale des données génomiques structurées en 1D.
WP1 : Analyse de l’hétérogénéité des échantillons et de l’identité cellulaire
Le projet SingleStatomics a permis des avancées significatives dans la modélisation des données en cellules uniques grâce à des modèles de comptage, réputés difficiles à inférer. Grâce à nos progrès dans l’optimisation de l’inférence de ces modèles, il est désormais possible de les appliquer à des ensembles de données de très grande taille, ce qui était auparavant inenvisageable. En modélisant les données de comptage, nous pouvons mieux caractériser la variabilité biologique, et nous espérons que de nouvelles découvertes biologiques émergeront grâce au cadre que nous avons proposé. Nos contributions à la réduction de dimension et aux fondations probabilistes de méthodes populaires comme UMAP et t-SNE ouvrent de nombreuses perspectives. Parmi celles-ci, on peut citer des garanties théoriques plus solides pour ces méthodes et leur amélioration grâce à une formulation probabiliste rigoureuse.
WP2 : Modélisation de la différenciation cellulaire et des dynamiques de régulation génétique
Nos développements en modélisation des réseaux de régulation génique (GRN) constituent une avancée majeure dans la modélisation physique des processus biologiques de régulation. Notre objectif est désormais d’appliquer ce cadre à divers processus de différenciation, notamment dans le contexte de la recherche sur le cancer. En outre, dans une optique prédictive, notre modèle servira de base pour proposer des réseaux neuronaux informés par des principes physiques, capables de prédire les trajectoires de différenciation des cellules. Cette approche offre un potentiel immense, y compris pour des applications cliniques.
WP3 : Exploration de la multi-omique en cellule unique
Notre cadre de modélisation de la structure 1D des signaux sc-ChIP-seq sera étendu et enrichi pour inclure les données multi-cibles sc-ChIP-seq (Spatial-CUT&Tag). Cela représente une opportunité inédite de décrypter le « code de la chromatine » à l’échelle de la cellule unique. Par ailleurs, la méthode à noyau que nous avons proposée pour comparer les données unicellulaires sera développée pour aborder le cadre des perturbations, un domaine clé de la recherche en cellule unique. Cela consiste notamment à identifier les changements significatifs dans l’expression génique suite à des perturbations biologiques ou chimiques des populations.
La quantification à l’échelle du génome entier des phénomènes moléculaires tels l’expression des gènes ou les mutations de l’ADN, à partir de plusieurs milliers de cellules a révolutionné la biologie à la fin des années 90. Ces avancées ont permis par exemple la caractérisation de sous-types de cancers à partir de leur profils moléculaires, ou l’identification de listes de gènes exprimés ou inhibés dans des conditions particulières. Cependant les cellules d’un échantillon ne sont jamais toutes identiques, et les mesures moyennées fournissent une représentation erronée du signal biologique d’intérêt qui varie d’une cellule à une autre. Grâce aux progrès récents et combinés des techniques de séquençage massifs, ainsi que de la biologie cellulaire à haut débit, nous pouvons désormais mesurer, à l’échelle de la cellule unique, des produits moléculaires comme l’ADN, l’ARN, les états de la chromatine, ou même les protéines. L’utilisation de ces techniques de génomique en cellules uniques, nous permet d’étudier cette variabilité inter-cellulaire au sein d’un même échantillon biologique, et d’explorer de nouvelles questions restées inaccessibles avec la génomique classique. Par exemple, l’hétérogénéité est désormais bien établie pour plusieurs types cellulaires, comme les lymphocytes T, les cellules du poumon, ou les précurseurs des myélomes. La construction d’un atlas complet des types cellulaires humain est même à notre portée aujourd’hui. La variabilité inter-cellulaire est également centrale pour de nombreux processus biologiques, tels que la régulation des gène et la différentiation, car elle reflète la nature fondamentalement stochastique de certains phénomènes moléculaires, et renseigne sur les réseaux moléculaires sous-jacents. Cette variabilité joue un rôle important dans le processus de décision cellulaire, et au delà. Par conséquent, mesurer l’expression des gènes par cellule offre des perspectives nouvelles et révolutionnaires sur notre compréhension de la régulation des gènes, et pourrait permettre de résoudre plusieurs anciens débats en biologie. Au delà des aspects expérimentaux, la génomique en cellules uniques soulève de nouveaux défis mathématiques et computationnels. La nature des données produites et les questions émergentes diffèrent de l’approche classique. Par exemple, étant donné la rareté extrême du matériel biologique dans une seule cellule, il est courant d’avoir 90% de données manquantes dans une expérience en cellule unique, et les observations peuvent être corrompues par plusieurs artefacts expérimentaux. L’analyse de ces données nécessite donc de nouveaux développements statistiques. De plus, la quantité de cellules étudiées simultanément par les futures technologies dépassera le million, un ordre de grandeur bien supérieur à ce qui est rencontré traditionnellement, posant des défis immenses de passage à l’échelle pour les méthodes d’analyse. Enfin, de nouvelles questions émergent, comme la modélisation d’un processus de différentiation, ou l’intégration de données génétiques et épigénétiques à l’échelle de la cellule unique, faisant également appel à de nouveaux développements formels. En résumé, de nouveaux outils d’analyse sont nécessaires pour exploiter au mieux les potentialités émergentes de la génomique en cellules uniques. L’objectif de ce projet est d’affronter certains de ces défis, en développant de nouveaux modèles mathématiques et des outils d’analyse pour trois questions biologiques: l’étude de l’hétérogénéité inter-cellulaires et l’identité cellulaire, la modélisation de la dynamique de différentiation cellulaire et la régulation des gènes, l’analyse des données d’épigenomique en cellules uniques. Pour mener à bien ce projet nous avons réuni un consortium autour de compétences en statistique en grande dimension, apprentissage statistique, bioinformatique, biologie des systèmes, ainsi qu’un réseau de collaborateurs spécialistes de la génomique en cellules uniques, en France et à l’étranger.
Coordination du projet
Franck PICARD (Laboratoire biologie et modélisation de la cellule)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LBBE Laboratoire de biométrie et biologie évolutive
Mathématiques et Informatique Appliquées
LBMC LABORATOIRE DE BIOLOGIE ET MODELISATION DE LA CELLULE
LBMC UMR 5239 Laboratoire biologie et modélisation de la cellule
Aide de l'ANR 597 436 euros
Début et durée du projet scientifique :
février 2019
- 48 Mois