DEFIS - domaines émergent 2008

Classification croisée et sélection de modèle – CLASSEL

Résumé de soumission

ClasSel est un projet de recherche académique qui vise à développer des méthodes pour transformer des données en connaissances. Les données en question sont sous la forme d'une matrice individus-variables. Nous cherchons à comprendre comment construire de manière automatique, à partir de données, des groupes ou des hiérarchies d'individus définies simultanément à partir de groupes ou de hiérarchies de variables. Ces hiérarchies associant individus et variables sont ensuite exploitées pour compléter les données ou pour servir de base à la définition de terminologies ou de 'contextes'. C'est le problème de classification croisée. Lorsque qu'on attaque ce type de problème, une attention toute particulière doit être portée au problème fondamental du choix du nombre de groupe : c'est la question de la sélection de modèle. Nous abordons ces questions formellement dans un cadre statistique nouveau et particulièrement bien adapté. Nous avons structuré notre projet autour de quatre tâches : - l'étude de la classification croisée, - l'étude du problème spécifique de la sélection de modèle, - les questions algorithmiques liées notamment à notre volonté d'attaquer des grandes masses de données, - les applications. Nous proposons d'attaquer le problème de classification croisée formellement en utilisant une modélisation probabiliste. Notre projet vise à adapter ce type de modèle aux problèmes spécifiques de la classification croisée pour les problèmes de grande taille et d'adapter les algorithmes d'estimation du type EM. Le but principal de l'aspect Sélection de modèles de notre projet est le développement de nouvelles méthodes de mise en œuvre de sélection de modèles appliquées à l'apprentissage statistique. Nous comptons intégrer les points de vues issus des domaines de la fouille de données et d'apprentissage à la Statistique paramétrique classique en vue d'explorer de très grands ensembles de données. Nous visons à déterminer, au travers des idées de la sélection de modèle, quels prédicteurs ont le plus d'influence sur les résultats et à évaluer le degré d'incertitude de nos prévisions. La partie algorithmique vise à adapter les solutions proposées aux contraintes liées au passage à l'échelle. Elle a aussi pour objectif de tester les différentes solutions envisagées et de fournir à la communauté des composant logiciels réutilisables. Les applications sont vues à la fois comme moteur et démonstrateurs de nos recherches. Il sont en effet moteurs à travers le problèmes spécifiques posées. Ces applications concerent la segmentation marketing en collaboration avec l'université de Vienne (Autriche), les systèmes de recommendation à travers le challenge Netflix et la fouille de texte. Notre stratégie scientifique consiste à attaquer de front les questions fondamentales de la modélisation en apprentissage et de la sélection de modèle pour trouver des solutions en rupture avec l'existant. Pour atteindre cet objectif nous proposons de mettre en œuvre une approche décloisonnée mobilisant des chercheurs de différentes communautés STIC (statistiques, analyse de données, apprentissage et informatique) sur des application concrète liées à de grandes masses de données. Le groupe projet associe logiquement des statisticiens (D. Fourdrinier du LITIS, des spécialistes de l'analyse des données comme G. Govaert d'Heudiasyc et M. Nadif du CRIP 5, des chercheurs de la coumunauté appentissage S. Canu, A. Rakotomamonjy, G. Gasso (LITIS) et Y. Grandvalet (Heudiasyc) et des informaticiens comme F.X. Jollois du CRIP 5.

Coordination du projet

Université

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

Aide de l'ANR 318 146 euros
Début et durée du projet scientifique : - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter