Intégration de données de séquences et d'incidence pour analyser et contrôler les épidémies virales – PHYEPI
La compréhension de la propagation des infections virales est centrale pour informer les décisions en santé publique. L'épidémiologie mathématique classique se base avant tout sur des données d'incidence (nombre de nouveau cas par semaine) et des données de suivi de contact. Pourtant, avec les progrès technologiques des dernières années, on peut maintenant facilement et rapidement obtenir des données de séquences génétiques virales issues de patients infectés. Ces séquences contiennent beaucoup d'information quant au réseau de transmission, comme l'étudie le champ émergent de la phylodynamique.
Nous partons du constat que les approches actuelles, que ce soit l'épidémiologie mathématique ou la phylodynamique, n'utilisent qu'une partie des données disponibles : la première ignore les données de séquence, tandis que la seconde se passe des données d'incidence. Dans une optique de santé publique, il est important d'extraire le maximum d'information possible en combinant des donnés hétérogènes. D'autant plus que chaque type de données a ses forces, mais aussi ses faiblesses. Ainsi, les données d’incidence sont faciles à récolter à obtenir, mais elles présentent le désavantage d’être souvent agglomérées et fort sensibles aux biais d’échantillonnage. À l’inverse, les données de séquences sont plus coûteuses à générer mais contiennent beaucoup d’information et sont un peu moins sensible aux biais d’échantillonnage.
Nous proposons d’étendre une méthode que nous avons déjà validée et qui repose sur le Calcul Bayésien Approché (ABC) afin de combiner des données hétérogènes, en particulier séquences génétiques et incidence, pour analyser les épidémies virales.
Nos résultats préliminaires montrent que ce projet est faisable. D’un point de vue conceptuel, notre méthode reposant sur des statistiques de résumé, combiner des données hétérogènes est aisé tant qu’il est possible de simuler in silico des données ayant la même structure que les données biologiques. D’un point de vue technique, le package R que nous avons développé permet de simuler rapidement des phylogénies et des séries temporelles pour n’importe quel modèle compartimental.
En analysant l’épidémie de COVID-19 dans différents contextes, dont celui de la France, nous pourrons d’une part valider cette combinaison de données hétérogènes pour l’analyse des épidémies virales. Nous pourrons aussi obtenir des informations plus précises quant aux paramètres épidémiologiques de l’épidémie (notamment le nombre de reproduction de base R0), mais aussi quant à des paramètres biologiques tels que la durée de la période infectieuse ou encore l’hétérogénéité entre les infections.
D'un point de vue plus appliqué, nous développerons un programme permettant non seulement de répéter ces analyses mais aussi de les transposer dans différents contextes. Ceci sera implémenté en tant que package R afin de favoriser la transversalité.
Coordination du projet
Samuel Alizon (Maladies Infectieuses et Vecteurs : Ecologie, Génétique, Evolution et Contrôle)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
MIVEGEC Maladies Infectieuses et Vecteurs : Ecologie, Génétique, Evolution et Contrôle
PCCI Pathogenèse et contrôle des infections chroniques
MIVEGEC Maladies Infectieuses et Vecteurs : Ecologie, Génétique, Evolution et Contrôle
MIVEGEC Maladies Infectieuses et Vecteurs : Ecologie, Génétique, Evolution et Contrôle
Aide de l'ANR 63 616 euros
Début et durée du projet scientifique :
juin 2020
- 18 Mois