JCJC SIMI 1 - JCJC - SIMI 1 - Mathématiques et interactions

Procédures statistiques fondées sur des mélanges pour l’analyse de données de RNA-seq – MixStatSeq

MixStatSeq

Procédures statistiques fondées sur des mélanges pour l’analyse de données de RNA-seq

Enjeux

Depuis quelques années, les progrès de la nouvelle génération de séquençage à haut-débit a fait du séquençage d’ARN (RNA-seq) un outil de choix pour l’étude de l’expression des gènes. Bien que les puces à ADN et le RNA-seq aient tous les deux pour but de caractériser l’activité transcriptionnelle, les outils statistiques développés pour l’ancienne technologie ne sont pas adaptés pour le RNA-seq. Jusqu’à présent, les développements méthodologiques pour les données de RNA-seq sont principalement dédiés à la normalisation ou à l’analyse différentielle; peu d’études méthodologiques ont été consacrées à l’identification de sous-groupes de gènes co-exprimés à partir de données de RNA-seq. Cependant, comme les expériences de RNA-seq vont devenir de plus en plus abordables en termes de cout, il est probable que de telles expériences remplaceront celles des puces à ADN pour plusieurs applications relatives à l’étude du transcriptome. Il est donc crucial de poursuivre des recherches sur le développement de méthodes statistiques qui permettent aux biologistes d’exploiter les données de RNA-seq. <br />Dans le projet MixStatSeq, nous nous intéressons aux questions biologiques suivantes: la détection de gènes différentiellement exprimés; la détection de sous-groupes de gènes co-exprimés ; la détection de gènes spécifiques.

Dans le but de répondre à ces questions biologiques, nous proposons de développer une série de méthodes statistiques robustes fondées sur des modèles de mélange. Cela amène aussi à poursuivre les études théoriques autour des modèles de mélanges. Tout le long du projet, les collaborations avec des biologistes de plusieurs laboratoires seront favorisés pour valider les modèles choisis et tester les approches développées sur des données réelles de RNA-seq obtenues pour différents organismes. L’originalité de ce projet sera les échanges permanents entre recherches théoriques, méthodologiques et appliquées, y compris l’évaluation des biologistes, dans le but d’assurer une utilisation effective immédiate des procédures développées.

Dans Rigaill et al. (2016), les ingrédients statistiques importants (modélisation du comptage, filtrage des faibles comptage et modélisation de la dispersion) pour réaliser l'analyse différentielle sont étudiés sur données synthétiques créées. Il s'avère que le plus important est d'utiliser un GLM binomiale négative et de bien modéliser la moyenne en tenant compte de toutes les covariables.
Pour la co-expression, un modèle de mélanges de Poisson, implémenté dans le package HTSCluster, est proposé dans Rau et al. (2015). Puis, nous avons considéré l’utilisation des mélanges gaussiens sur données transformées (transformations sur des proportions d’expression). Un critère pénalisé de type ICL est considéré pour sélectionner le nombre de composantes du mélange et la transformation la plus adéquate. Cette procédure a été testée sur quatre jeux de données réels. L’ensemble de la procédure est implémentée dans le package coseq. Ce travail est actuellement soumis pour publication.
Dans Laurent et al. (2014), nous nous intéressons à la détection d’une distribution de mélanges à deux composantes pour un échantillon unidimensionnel. Une procédure de test multiple fondée sur des écarts de statistiques d’ordre est proposée. L’optimalité en termes de puissance de notre procédure de test est prouvée dans plusieurs situations théoriquement et la procédure s’adapte automatiquement à la proportion du mélange et à l’écart des moyennes sous l’alternative. Dans un travail actuellement soumis, nous avons poursuivi par l’étude des vitesses de séparation pour des modèles de contamination dans un cadre multi-dimensionnel, en cherchant à cerner le plus précisément possible le rôle de la dimension.
Dans Gadat et al. (2016, soumis) on s’est placé dans le cadre d’un modèle de contamination paramétrique. Sous des hypothèses générales sur la distribution contaminée, nous avons établi les vitesses de convergence optimales pour l’estimation des paramètres de mélange.

Dans la dernière période du projet, nous souhaitons en autre poursuivre les travaux théoriques sur les modèles de mélanges pour l’estimation des paramètres, les tests, … Nous poursuivons également nos recherches dans le cadre de la co-expression pour proposer des méthodes alternatives de classification directement sur les profils des gènes.

Depuis quelques années, les progrès de la nouvelle génération de séquençage à haut-débit a fait du séquençage d’ARN (RNA-seq) un outil de choix pour l’étude de l’expression des gènes. Bien que les puces à ADN et le RNA-seq aient tous les deux pour but de caractériser l’activité transcriptionnelle, les outils statistiques développés pour l’ancienne technologie ne sont pas adaptés pour le RNA-seq. Jusqu’à présent, les développements méthodologiques pour les données de RNA-seq sont principalement dédiés à la normalisation ou à l’analyse différentielle (mais les procédures de test actuellement proposées sont peu puissantes pour détecter des gènes différentiellement exprimés); peu d’études méthodologiques ont été consacrées à l’identification de sous-groupes de gènes co-exprimés à partir de données de RNA-seq. Cependant, comme les expériences de RNA-seq vont devenir de plus en plus abordables en termes de cout, il est probable que de telles expériences remplaceront celles des puces à ADN pour plusieurs applications relatives à l’étude du transcriptome. Il est donc crucial de poursuivre des recherches sur le développement de méthodes statistiques qui permettent aux biologistes d’exploiter les données de RNA-seq.
Dans le projet MixStatSeq, nous nous intéressons à trois questions biologiques principales à partir de données de RNA-seq: (i) la détection de gènes différentiellement exprimés; (ii) la détection de sous-groupes de gènes co-exprimés ; (iii) la détection de gènes invariants, i.e. ceux dont l’expression reste stable dans de nombreuses conditions biologiques. Dans le but de répondre à ces trois questions biologiques, nous proposons de développer une série de méthodes statistiques robustes fondées sur des modèles de mélange.
Dans le cadre de l’analyse différentielle, deux points de vue sont envisagés. Selon le premier, nous souhaitons construire une procédure de test puissante qui, après une étape de classification non supervisée des gènes, applique une procédure de test sur chaque sous-groupe de gènes avec un contrôle de l’erreur due aux tests multiples. Selon le deuxième, nous souhaitons développer une méthode de classification non supervisée, fondée sur des mélanges finis afin de classer directement les gènes en groupes représentant les gènes différentiellement exprimés et ceux non différentiellement exprimés.
Pour la détection de sous-groupes de gènes co-exprimés, nous désirons étendre nos travaux préliminaires utilisant des modèles de mélange. En particulier, comme le nombre d’expériences de RNA-seq va continuer à augmenter dans les années à venir, il est important de développer des méthodes de sélection de variables ainsi qu’intégrer d’autres connaissances biologiques dans le but d’améliorer l’interprétabilité de la classification non supervisée des gènes.
Pour la détection de gènes invariants, notre but est de développer une procédure de test non asymptotique afin de déterminer si l’expression d’un gène dans plusieurs expériences suit une distribution contre un mélange de distributions, et d’étudier ses propriétés théoriques pour assurer une procédure de test puissante. Au-delà de l’étude des données de RNA-seq, le développement d’une telle procédure est un problème théorique assez complexe.
Tout le long de MixStatSeq, l’équipe favorisera les collaborations avec des biologistes de plusieurs laboratoires pour valider les modèles de mélange choisis et tester les approches développées sur des données réelles de RNA-seq obtenues pour différents organismes. L’originalité de ce projet sera les échanges permanents entre recherches théoriques, méthodologiques et appliquées, y compris l’évaluation des biologistes, dans le but d’assurer une utilisation effective immédiate des procédures développées. De plus, au-delà du contexte biologique considéré, ce projet permettra de fournir de nouvelles connaissances théoriques et méthodologiques pour l’étude de données de comptage par des mélanges.

Coordination du projet

Cathy MAUGIS-RABUSSEAU (INSTITUT DE MATHEMATIQUES DE TOULOUSE) – cathy.maugis@insa-toulouse.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IMT INSTITUT DE MATHEMATIQUES DE TOULOUSE

Aide de l'ANR 95 000 euros
Début et durée du projet scientifique : février 2014 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter