Modélisation et Inférence Statistique pour l’Apprentissage non-supervisé à partir de Données Massives – SMILES
Statistical Modeling and Inference for unsupervised Learning at LargE-Scale
Transformer des données brutes hétérogènes de grande dimension et potentiellement disponibles en masse, en des connaissances structurées via des modèles à variables latentes originaux appris par des algorithmes à complexité contrôlée
Modèles à variables latentes à l'échelle
L'analyse de données à l'échelle est un domaine pluridisciplinaire de plus en plus important dans la société actuelle. SMILES est un projet collaboratif de recherche fondamentale qui vise à introduire des modèles non supervisés et des algorithmes d'inférence pour transformer des données à l'échelle en connaissances. Le projet prend en compte le contexte de l'échelle dans son ensemble, avec les principales questions liées à l’inférence à partir d'un grand volume de données de grande dimension et avec des structures complexes latentes. Son principe est d'introduire des modèles de régression parcimonieux (non)paramétriques pour la représentation, et des modèles à variables latentes à l’échelle pour la classification non-supervisée. L'extraction de connaissances consistera à restaurer des structures cachées, des prototypes résumés, des groupes, des représentations parcimonieuses. Nous considérons notamment des données fonctionnelles, bioacoustiques multimodales, et génomiques.
- latent variable models for high-dimensional regression, including functional regression and functional regressions mixture models
- latent variable models for high-dimensional classification and clustering in high-dimensional scenarios
- latent variable models for unsupervised learning and bioacoustics
voir le rapport pdf pour plus de détails:
- résultats théoriques méthodologiques et computationnels sur les capabilities d'approximation, d'estimation et de sélection de modèles dans les modèles à variables latentes, en particulier les mélanges de densité et les mélanges d'experts
partie deep latent variable models et clustering distribué
voir rapport intermédiaire
L'analyse de données à l'échelle est un domaine pluridisciplinaire de plus en plus important dans la société actuelle. SMILES est un
projet collaboratif de recherche fondamentale qui vise à introduire des modèles non supervisés et des algorithmes d'inférence pour
transformer des données à l'échelle en connaissances. Le projet prend en compte le contexte de l'échelle dans son ensemble, avec
les principales questions liées à l’inférence à partir d'un grand volume de données de grande dimension et avec des structures
complexes latentes. Son principe est d'introduire des modèles de régression parcimonieux (non)paramétriques pour la
représentation, et des modèles à variables latentes à l’échelle pour la classification non-supervisée. L'extraction de connaissances
consistera à restaurer des structures cachées, des prototypes résumés, des groupes, des représentations parcimonieuses. Nous
considérons notamment des données fonctionnelles, bioacoustiques multimodales, et génomiques.
Coordination du projet
Faicel CHAMROUKHI (LABORATOIRE DE MATHÉMATIQUES NICOLAS ORESME)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LMNO LABORATOIRE DE MATHÉMATIQUES NICOLAS ORESME
LMRS LABORATOIRE DE MATHEMATIQUES RAPHAEL SALEM
LIS Laboratoire d'Informatique et Systèmes
MODAL MOdel for Data Analysis and Learning
Aide de l'ANR 338 904 euros
Début et durée du projet scientifique :
October 2018
- 42 Mois