Classification non-supervisée en grande dimension : algorithmes et applications – CLARA
De nombreuses avancées techniques dans divers domaines scientifiques permettent aujourd'hui la collecte de données à la fois volumineuses, complexes et de grande dimension. Face à l'analyse de ces observations, la communauté statistique doit relever plusieurs défis. Le premier d'entre eux consiste à partionner les données en ensembles homogènes. De tels groupes peuvent alors être interprétés au sein de leur contexte scientifique ou bien servir de résumés pour une analyse ultérieure. Ce problème d'identification et d'extraction de groupes cohérents est connu sous le nom de clustering ou classification non-supervisée. Le projet de recherche que nous proposons est pluridisciplinaire et s'appuie sur un solide réseau de collaborations, tissé par les différents partenaires au sein de deux domaines d'applications : les sciences de l'observation de la Terre d'une part et la biologie post-génomique d'autre part. Ces deux disciplines engendrent des jeux de données difficiles à analyser (de par leur volume, leur nature et leur dimension) face auxquels les algorithmes de clustering habituels se montrent inefficaces ou peu adaptés. Notre projet présente une composante mathématique et une composante appliquée. Dans le volet théorique, nous proposons d'approfondir les propriétés mathématiques (convergence, vitesses de convergence, partitionnement limite, etc.) des algorithmes de clustering fondés sur l'analyse de comparaisons (ou similarités) entre paires d'observations, en accordant une attention toute particulière aux méthodes dites "à noyau" et à la technique dite "de clustering spectral". Ces algorithmes prometteurs, particulièrement en vogue dans le milieu industriel, sont connus pour bien résister à la grande dimension et permettent de détecter des groupements de données dont la forme est, a priori, arbitraire. Les recherches théoriques à leur sujet, qui permettront de guider leur utilisation, en sont néanmoins à un stade embryonnaire. La composante appliquée de notre étude se rapporte à des problématiques spécifiques en sciences de l'observation de la Terre et en biologie post-génomique. Dans le cas des sciences d'observation de la Terre, les problèmes posés sont de deux ordres : 1) identification et partitionnement de types fonctionnels de phytoplancton en vue d'applications biogéochimiques et 2) détermination de types d'aérosols pour les études de bilans radiatifs et de télédétection des propriétés des aérosols et des surfaces (sol et océan). En biologie post-génomique, l'objectif essentiel consiste à mettre en évidence, via des techniques de clustering, des sous-types de cancers et à détecter des groupes de gènes formant des chemins cohérents d'expressions fonctionnelles au sein du génome. Afin de répondre aux objectifs tant théoriques qu'appliqués du projet, nous avons choisi de réunir une équipe de neuf scientifiques dont les expertises sont complémentaires et qui, par groupes de deux ou trois, ont déjà collaboré sur des questions proches.
Coordination du projet
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
Aide de l'ANR 135 000 euros
Début et durée du projet scientifique :
- 0 Mois