DS04 - Vie, santé et bien-être

Modèle(s) d'Evolution de l'Epissage Alternatif et de son Impact Structural – MASSIV

Evolution et Impact Structural de l'Epissage Alternatif

L’épissage alternatif enrichit le répertoire protéique en générant plusieurs transcrits à partir d’un même gène. MASSIV combine génomique et modélisation moléculaire. MASSIV collectera, fouillera et intègrera les masses de données de séquençage pour comprendre la contribution de l’EA dans l’évolution des structures et fonctions protéiques. Notre hypothèse de travail est que l’apparition de nouveaux transcrits est corrélée avec une réorganisation des repliements et interactions protéiques.

Etude systématique de l'impact structural de l'EA et de la façon dont il modèle les repliements et interactions protéiques à travers l'évolution

L’ambition de MASSIV est d’exploiter les masses de données issues des technologies de séquençage pour élucider les mécanismes moléculaires par lesquels l’évolution d’AS favorise la diversité fonctionnelle des protéines. Nos objectifs sont les suivants:<br />(A) Recueillir, nettoyer et intégrer divers types d'informations relatives à l'effet de l'EA sur la séquence codante de la protéine,<br />(B) Reconstruire des scénarios d'évolution plausibles expliquant les transcripts observés chez plusieurs espèces (par exemple l'homme, le chimpanzé, la souris, le poisson zèbre, la drosophile) et détecter les transcripts conservés au cours de l'évolution,<br />(C) Caractériser l’impact de l'EA sur la structure de la protéine, son comportement dynamique et ses interactions et le relier à la fonction de la protéine,<br />(D) Identifier l'apparition de nouveaux transcrits dans l'évolution, estimer leurs âges et les relier quantitativement aux changements structurels induits, afin de mieux comprendre l'évolution des structures protéiques.<br /><br />MASSIV aborde plusieurs questions non résolues et difficiles liées à l'EA: Quelles sont les voies d'évolution menant à l'innovation fonctionnelle? Quel est l'impact de l'EA sur la diversité de repliement d'une protéine ou d'une famille de protéines? Les protéines peuvent-elles développer de nouveaux repliements? Est-ce que l'EA module les réseaux PPI et dans quelle mesure? Quels sont les mécanismes moléculaires sous-jacents aux différentes activités biochimiques ou aux affinités de liaison de différentes isoformes de protéines? Pour contribuer à y répondre à grande échelle, nous élaborerons des stratégies efficaces et précises pour prévoir les changements structuraux / dynamiques associés aux variations de séquence induites par l'EA et pour reconstruire les phylogénies des transcrits chez plusieurs espèces. La richesse des séquences et la grande dimensionalité de l'espace de repliement des protéines place ce projet dans la catégorie big data.

Nous développerons des modèles théoriques avec un pouvoir prédictif quantitatif pour la phylogénie des transcrits et la reconstruction des structures des isoformes. Cela implique de collecter, de traiter et d'intégrer les données RNAseq et potentiellement ribo-seq, d'identifier les exons orthologues (par une combinaison d'alignement par paires et de séquences multiples), d'inférer des scénarios d'évolution plausibles en reconstruisant des forêts d'arbres de transcrits inclus dans l'arbre de gène, ainsi que de modéliser et d'annoter les structures 3D des isoformes de protéine produites. Nous produirons un package open source entièrement automatisé implémentant et intégrant les modèles.

Nous généraliseront ces outils informatiques pour les appliquer à l'ensemble du génome humain. Cela produira une base de données d'annotations évolutives et structurales pour les isoformes qui sera mise à la disposition de la communauté scientifique via un serveur Web, avec les services Web associés.

Nous combinerons gestion de mégadonnées et création de connaissances pour élucider le lien entre la fixation des EEAs et leur impact structural et fonctionnel sur le répertoire des protéines. Pour chaque famille de protéines, nous cartographierons les changements structuraux estimés sur les feuilles et les nœuds ancestraux de la phylogénie des transcrits. Notre analyse permettra d’identifier de nouvelles cibles thérapeutiques, c’est-à-dire des isoformes spécifiques, dont l’expression est corrélée à l’apparition de maladies.

Un atout essentiel de MASSIV est l’interaction entre l’inférence phylogénétique basée sur les séquences et la modélisation moléculaire. La cohérence entre les changements structuraux estimés et la conservation évolutive détectée des EEAs garantira la validité de nos résultats et servira à valider nos prédictions. Nous rechercherons également constamment des données expérimentales pour confronter nos prédictions et les valider.

Nous avons développé un algorithme de reconstruction de phylogénies de transcrits basé sur le principe de parsimonie maximum. Il prend en entrée un ensemble de transcrits, représentés comme des collections d'exons, et infère des forêt d'arbres phylogénétiques inclus dans l'arbre de gène. Pour inférer les phylogénies de manière automatique sur un grand nombre d'espèces, nous avons aussi développé ThorAxe, une méthode qui identifie automatiquement les groupes d’exons orthologues à partir des données d'annotation d'Ensembl. A notre connaissance, il s’agit du premier outil qui permet de définir automatiquement des groupes d’exons orthologues en prenant en compte l’épissage alternatif. Sa prise en main est très facile. Il peut être utilisé pour un large spectre d’applications (annotation, prédiction d’exons, identification de gènes contenant un exon, identification de transcrits similaires dans différents organismes…). Nous avons aussi développé un prototype de modélisation par homologie pour reconstruire des structures 3D d'isoformes protéiques. Cette modélisation a comme briques de bases les axons identifiés par Thoraxe. Nous avons développé une base de connaissance pour une vingtaine de familles de gènes. Des données de séquence, structurales, d'activité biochimique et fonctionnelles y ont été compilées. Nous avons ainsi pu valider ThorAxe en vérifiant que les événements d'EA anciens identifiés correspondent presque parfaitement avec ceux documentés dans la littérature. Au-delà de l’intérêt de validation de nos méthodes, elle contribue à élaborer une vision globale des types d'EEAs anciens qui ont un impact fonctionnel, des types de structures protéiques associées et des types de mécanismes moléculaires impliqués. Nous avons développé un prototype pour l'intégration de données RNA-seq dans la reconstruction de phylogénies, afin de pouvoir réaliser des analyses d'expression tissu-spécifiques, et de réannotation des transcrits non documentés.

Nous allons maintenant finaliser le développement de nos outils pour la prédiction de structures et l’appliquer à toute notre base de connaissance. Nous allons aussi reconstruire les phylogénies de transcrits pour tout le benchmark. Les résultats feront l'objet d'un manuscrit.

Nous appliquerons ensuite ThorAxe à l'ensemble du protéome humain. Nous développerons un outil pour détecter automatiquement les événements d’EA anciens à partir des résultats de ThorAxe et Les structures de tous les isoformes humaines d’origine ancienne seront ensuite modélisées. Ces données seront mises à disposition de la communauté. Nous finaliserons également notre outil d’analyse et d’intégration de données de séquençage (RNA-seq, Ribo-Seq, scRNA-seq), qui alimentera l’analyse de tout le protéome.

Nous prévoyons aussi d’organiser une conférence de 2 jours autour de l’EA à Sorbonne Université au printemps 2020. Les différentes sessions couvriront un spectre large de thématiques : Evolution, EA et maladie, Données quantitative sur EA, Analyse fonctionnelle de l’EA, ontologies, Structure et function.

2 articles de recherche dans des revues internationales (1 soumis, 1 en préparation), 1 présentation orale (+ poster + travel fellowship) dans la conférence internationale de référence de bio informatique (ISMB/ECCB 2019, environ 1000 participants), 2 présentations orales, 1 poster et 1 demo dans la conférence français de référence de bio informatique (JOBIM, éditions 2018 et 2019).

L’épissage alternatif (EA) contribue grandement à la diversité fonctionnelle des eucaryotes multicellulaires. Il augmente et enrichit le répertoire protéique en générant plusieurs transcrits à partir d’un même gène. Chez l’Homme, tous les gènes comportant plus d’un exon sont soumis à l’EA. Sa dérégulation est associée à des maladies comme le cancer.

Si les mécanismes d’EA sont bien décrits au niveau génomique, l’impact des événements d’EA (EEAs) sur les structures de protéines a été très peu caractérisé. Plusieurs études de modélisation moléculaire ont mis en évidence des cas où les EEAs peuvent induire de larges changements structuraux et d’interactions protéine-protéine (IPP). Ceci suggère que l’AS produit de la diversité structurale et functionnelle au cours de l’évolution. Cependant, on ne sait pas actuellement dans quelle mesure cette diversité de transcrits est traduite au niveau protéique.

Nous proposons MASSIV, un projet multidisciplinaire en bioinformatique qui combine génomique et modélisation moléculaire. MASSIV collectera, fouillera et intègrera les masses de données issues du séquençage haut débit pour aider à comprendre et décrire la contribution de l’EA dans l’évolution des structures et fonctions protéiques. Notre hypothèse de travail est que l’apparition de nouveaux transcrits est corrélée avec une réorganisation de l’espace des repliements des protéines et des réseaux d’IPPs.

MASSIV se basera sur le développement et l’application à large échelle de méthodes computationnellesqui seront validées avec soin. Nous développerons la première méthode computationnelle qui reconstruit des scenarios plausibles pour expliquer un ensemble de transcrits observés chez plusieurs espèces et qui prédit les structures tertiaires, propriétés dynamiques et interactions des isoformes correspondants. Ceci permettra de déterminer quels isoformes jouent un rôle fonctionnel dans la cellule et de fournir des explications mécanistiques de l’effet fonctionnel des EEAs. Nous appliquerons notre méthodologie à l’ensemble du génome humain. Ceci génèrera une base de connaissance qui sera accessible à la communauté. Nous identifieront des EEAs induisant des changements structuraux majeurs et caractériserons la façon dont l’EA navigue dans l’espace des repliements.

Les résultats escomptés ouvriront également des avenues en recherche médicale (identification de nouvelles cibles thérapeutiques, création de signatures patient-spécifiques). Les méthodes développées seront utiles pour étudier la diversité de transcrits et leur conservation parmi diverses entités biologiques. Ces entités peuvent être à l’échelle de (i) un(e) individu/espèce (différentiation tissulaire/cellulaire), (ii) différentes espèces (types cellulaires correspondants) ou (iii) une population d’individus affectés ou non par un désordre multifactoriel. Ce dernier cas est particulièrement pertinent pour la recherche médicale.

MASSIV propose d’exploiter de manière rationnelle et efficace les masses de données générées par les technologies haut débit et de complémenter les approches expérimentales dédiées à l’analyse de la diversité de transcrits avec des méthodes computationnelles. Le développement formidable de ces approches est récent et nous commençons seulement à sonder en profondeur la complexité associée à l’EA dans différentes espèces, individus et tissus. Nous pouvons envisager que dans une décennie ou deux, il sera possible d’enregistrer le transcriptome de n’importe quel individu de manière routinière et la médecine personalisée sera de plus en plus accessible. Il est important que nous engagions des efforts dès maintenant pour pouvoir traiter ces données personnelles de la meilleure façon. C’est le sens de notre proposition. Les méthodes/approches que nous développerons joueront un rôle essentiel à mesure que les données expérimentales disponibles s’accumuleront et deviendront plus précises et plus quantitatives.

Coordination du projet

Elodie Laine (Laboratoire de Biologie Computationnelle et Quantitativ)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LCQB Laboratoire de Biologie Computationnelle et Quantitativ

Aide de l'ANR 205 200 euros
Début et durée du projet scientifique : December 2017 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter