DS10 - Défi des autres savoirs

Approches post hoc pour les tests multiples à grande échelle – SansSouci

Résumé de soumission

Le nombre et le volume des bases de données de différents types a augmenté de façon considérable durant les vingt dernières années. Ces données sont à la fois de grande dimension (le nombre de variables dépassant le nombre d'observations de plusieurs ordres de grandeur), hétérogènes (car provenant de différentes sources) et fortement structurées par les relations entre les entités qu'elles décrivent.
Dans de nombreuses applications, on teste l'association entre un grand nombre de variables explicatives et une variable de réponse d'intérêt. Cette situation de test multiple a suscité le développement de mesures de risques dédiées, comme le False Discovery Rate (FDR) qui est énormément utilisé aujourd'hui dans les applications. Nous avons identifié des situations dans lesquelles il existe un fossé notable entre les garanties statistiques offertes par les procédures usuelles en test multiple, et les besoins réels des applications. Nous considérons trois exemples illustratifs:

1. En neuroimagerie, la détection à partir de données d'imagerie par résonance magnétique fonctionnelle (IRMf) de régions du cerveau spécifiquement activées par la réalisation d'une tâche

2. La recherche de gènes différentiellement exprimés en cancérologie.

3. Dans les études d'association Génome entier (GWAS), l'identification de marqueurs génétiques associés à un phénotype d'intérêt.

Les approches utilisées le plus couramment en pratique consistent à effectuer une sélection (univariée) d'un sous-ensemble d'hypothèses candidates, qui est ensuite raffiné grâce à de connaissances a priori sur le problème en question. Ces approches ont deux inconvénients majeurs: la sélection initiale n'exploite pas l'information a priori, et les méthodes actuelles ne fournissent pas de mesure de risque sur l'ensemble de marqueurs finalement retenus. En l'absence d'outils statistiques spécifiquement dédiés à ce problème, la communauté scientifique court le risque que les articles contiennent de nombreuses "fausses découvertes".

Afin de remédier aux limites évoquées ci-dessus, le projet SansSouci a pour objectif le développement de procédures de tests multiples pour l'inférence post hoc. Le terme post hoc signifie que les ensembles d'hypothèses sélectionnés peuvent être définis par l'utilisateur de la procédure, après avoir 'vu les données'. Ainsi, contrairement aux mesures de risque couramment utilisées, les approches post hoc permettent d'obtenir des bornes sur le nombre ou la proportion de faux positifs dans n'importe quelle liste de candidats. Il s'agit là d'un changement de paradigme en test multiple, dont l'impact potentiel pour les applications à l'analyse de données de grande dimension est majeur. Ce type d'approche est particulièrement pertinent dans les exemples ci-dessus, dans lesquels les connaissances a priori ou des analyses complémentaires des données peuvent suggérer de se focaliser sur un ensemble d'hypothèses R qui n'est pas nécessairement constitué des '|R| hypothèses les plus significatives' au sens des tests usuels.

L'objectif principal de ce projet est le développement de nouvelles procédures de tests multiples pour l'inférence post hoc. Pour ce faire, nous introduisons une nouvelle mesure de risque dédiée, le 'Joint Risk' (JR) ou 'risque conjoint'. Le contrôle du JR permet en effet de construire des procédures post hoc. Ce projet recouvre les domaines suivants:

1. étude des propriétés théoriques du contrôle du JR: l'identification de cadres statistiques permettant le contrôle (asymptotique ou non) du JR; le développement de procédures dédiées; la caractérisation de leurs propriétés statistiques.;

2. développement de procédures post hoc spécifiquement construites pour les problèmes applicatifs mentionnés ci-dessus

3. application et évaluation des ces méthodes sur des problèmes précis;

4. implémentation et diffusion de ces procédures auprès de la communauté, par l'intermédiaire de logiciels et d'interfaces de visualisation interactives dédiés.

Coordination du projet

Pierre NEUVIAL (Université Toulouse III Paul Sabatier - Institut de mathematiques de Toulouse )

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

IMT Université Toulouse III Paul Sabatier - Institut de mathematiques de Toulouse

Aide de l'ANR 192 834 euros
Début et durée du projet scientifique : September 2016 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter