CE45 - Mathématiques et sciences du numérique pour la biologie et la santé 2020

Apprentissage statistique pour la pangénomique sur des collections infinies de motifs de séquences – PIECES

Résumé de soumission

Les variations génétiques ont des conséquences sur des phénotypes
divers impliquant notamment le santé humaine et les résistances
bactériennes. Elucider le lien entre génotypes et phénotypes est donc
un enjeu majeur en recherche fondamentale et appliquée. Les génomes
ont été historiquement représentés par leurs variations mineures par
rapport à une référence. Les études d'association par exemple (GWAS)
alignent le génome de chaque échantillon contre une référence pour le
représenter par son ensemble de mutations ponctuelles. Il est alors
classique de tester l'association entre la présence d'une mutation et
un phénotype d'intérêt. Toutefois dans de nombreux cas importants, la
notion d'alignement n'est pas appropriée. Certaines espèces
bactériennes par exemple comportent de nombreux gènes qui sont
présents chez certains individus et absents chez d'autres. La plupart
des représentations ne nécessitant pas d'alignement se basent alors
sur la présence exacte de sous-séquences dans les génomes. Or, les
variations génétiques liées à un phénotype d'intérêt sont souvent
mieux décrites par des motifs de séquence, indiquant la fréquence de
chaque lettre à chaque position. La méthode CKN-seq que nous avons
récemment introduite définit des ensembles infinis de descripteurs de
séquences s'interprétant comme de tels motifs, et en sélectionne un
sous-ensemble fini, optimal au sens d'un objectif supervisé. Le projet
PIECES étendra cette méthode dans trois tâches:

* GWAS sur des ensembles infinis de motifs

CKN-seq sélectionne parmi une infinité de possibilités des motifs
prédisant un phénotype. Aucune procédure n'existe par contre pour
quantifier la significativité de l'association entre les motifs ainsi
sélectionnés et le phénotype. Nous proposerons une procédure de test
d'hypothèse exploitant les techniques récentes d'inférence
sélective. La méthode de GWAS qui en résultera sera utilisée dans
plusieurs collaborations déjà établies avec des microbiologistes pour
identifier des déterminants génétiques des résistances aux
antibiotiques, et avec un partenaire industriel cherchant à détecter
des déterminants de maladies humaines dans des microbiotes
intestinaux.

* Analyse exploratoire interprétable des séquences

Les noyaux définis positifs permettent d'utiliser les outils
d'apprentissage non-supervisé sur des séquences non-alignées, et se
prêtent à des approximations efficaces, mais perdent tout accès aux
descripteurs: seules les appartenances aux clusters ou les projections
des échantillons sur les axes d'ACP sont par exemple disponibles. Un
défi important est donc de fournir des méthodes non-supervisées qui
soient rapides et ne nécessitent pas d'alignement, tout en demeurant
interprétables. Nous développerons un CKN-seq non supervisé, rendant
possible l'interprétation des clusters ou composantes principales en
termes de motifs associés.

* Apprentissage sur des populations de séquences

Nous introduirons des méthodes d'apprentissage supervisé pour la
reconstruction phylogénétique. Plutôt que de maximiser la
vraisemblance d'un modèle d'évolution des séquences, nous utiliserons
ce modèle pour générer des données (couples arbres
phylogénétiques/séquences obtenues sur ces arbres), et les utiliserons
pour apprendre une fonction transformant un ensemble de séquences en
une matrice de distance évolutives. Ce nouveau paradigme pourrait
surpasser les méthodes existantes en gérant des modèles évolutifs plus
complexes. L'approche supervisée pourra exploiter un alignement de
séquences ou bien une nouvelle représentation de familles de gènes
exploitant le même principe que CKN-seq.

Nous produirons des logiciels faciles d'utilisation pour maximiser la
diffusion et l'impact des méthodes développées au cours du projet
PIECES.

Laurent JACOB (BIOMÉTRIE ET BIOLOGIE EVOLUTIVE)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LBBE BIOMÉTRIE ET BIOLOGIE EVOLUTIVE

Aide de l'ANR 380 071 euros
Début et durée du projet scientifique : décembre 2020 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.