Parcimonie en Statistique – PARCIMONIE
Traiter des données en grande dimension est devenu un des grands défis du 21eme siécle. Les avancées les plus notables en analyse statistique des données et en simulation numérique sont basées sur l'idée que dans de nombreux cas, même pour des phénomènes très complexes, un petit nombre de composantes s'avèrent suffisantes pour décrire la dynamique globale: une réduction de dimension peut être accomplie en considérant des solutions ``parcimonieuses'' ou ``compressibles''. Comme les degrés de libertés réels sont inconnus et peuvent dépendre de la solution particulière, résoudre le dur problème combinatoire de leur identification requière des méthodes statistiques numériquement efficaces. La parcimonie est maintenant la clé de voûte de nombreuses méthodes statistiques modernes qui exploitent de manières différentes le principe bien connu que l'estimation statistique est rendu plus aisée lorsque l'objet sous-jacent vit dans un sous-espace de petite dimension, même si ce sous-espace est inconnu et vit dans un espace de grande dimension. Au début des années 90, Donoho et Johnstone ont utilisé la parcimonie des ellipsoides Besov sur des bases inconditionnelles et prouvé qu'il suffit de seuiller les coefficients empiriques pour obtenir un estimateur (quasi) optimal au sens minimax. Si la base inconditionnelle est une base d'ondelettes, cette méthode produit un estimateur rapide, simple et efficace des fonctions vivants dans les Besov standards. De nombreuses extensions ont été proposées depuis: différents schémas de seuillages, dans différentes bases ou frames, ou pour des données différentes, comme des données dépendantes ou issues d'observations indirectes. Si l'on relâche l'orthogonalité structurelle des bases, permettant ainsi des dictionnaires plus généraux, le seuillage n'est plus efficace et la sélection de modèles par pénalisation dimensionnelle devient impraticable. Remplacer la dimension (norme l^0) par la norme l^1 donne un problème de minimisation convexe calculable appelé Lasso. Ces estimateurs sont étonnamment efficaces. Leurs propriétés ont été étudiées, en particulier en agrégation, pour comprendre les hypothèses minimales requises sur la famille d'atomes. Des variations sur la pénalisation ont depuis été proposées: pénalisation dépendante des données, pénalisation non convexe... Récemment, un nouveau principe d'agrégation reposant sur l'approche PAC Bayésienne a été développé pour réduire encore ces hypothèses. Le projet PARCIMONIE se consacre à l'étude des estimateurs parcimonieux. Notre objectif principal est de proposer de nouveaux estimateurs parcimonieux et d'étudier leurs propriétés selon différents critères: théoriques (minimax, maxisets, inégalités de type oracle) et expérimentaux (comparaison sur des simulations). Les applications de nos méthodes sont à la fois une préoccupation importante et une motivation. En conséquence, une part importante du projet est orienté vers des applications réelles (biologie, astrophysique, imagerie). Nous aurons besoin de comprendre le type de représentations requis pour chaque application, de choisir les blocs de constructions et d'implémenter ces estimateurs. Le projet s'organise autour de 4 tâches: Estimation (Comment sélectionner les atomes?), Représentations (Quels atomes utiliser?), Algorithmes (Comment calculer les estimateurs) et Applications (Quel estimateur utiliser?). La tâche Estimation se concentrera sur des estimateurs parcimonieux liés à 5 techniques différentes (bien que liées): sélection de modèles et seuillage, tests multiples, Lasso et pénalisation l^p avec p<1, suites individuelles et agrégation EAC/PAC Bayésienne. La tâche Représentation concerne les blocs élémentaires des estimateurs parcimonieux, nous regarderons particulièrement les ondelettes adaptées et les needlets, les modèles SIM et les modèles graphiques. Dans la tâche Algorithmique, nous attaquerons le problème de l'implémentation des minimisations ou MCMC requis par nos estimateurs. La tâche Application se concentrera sur l'estimation des réseaux biologiques, l'anisotropie du CMB, l'expérience d'AUGER et la transformée de Radon à la fois comme objectifs et source d'inspiration. En plus des classiques communications scientifiques de nos résultats (exposés, conférences et publications), le projet PARCIMONIE souhaite ``livrer'' 3 contributions: l'organisation de 2 conférences internationales, la publication en ligne des algorithmes avec leur code source - de sorte qu'ils soient disponibles pour la communauté et utilisables par les praticiens-, et une page web sur l'estimation parcimonieuse qui soit une référence sur le sujet -à la manière du site de Rice sur le sujet proche de ``compressive sensing''.
Coordination du projet
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
Aide de l'ANR 0 euros
Début et durée du projet scientifique :
- 0 Mois