CE40 - Mathématiques, informatique théorique, automatique et traitement du signal

Modélisation et Inférence Statistique pour l’Apprentissage non-supervisé à partir de Données Massives – SMILES

Statistical Modeling and Inference for unsupervised Learning at LargE-Scale

Transformer des données brutes hétérogènes de grande dimension et potentiellement disponibles en masse, en des connaissances structurées via des modèles à variables latentes originaux appris par des algorithmes à complexité contrôlée

Modèles à variables latentes à l'échelle

L'analyse de données à l'échelle est un domaine pluridisciplinaire de plus en plus important dans la société actuelle. SMILES est un projet collaboratif de recherche fondamentale qui vise à introduire des modèles non supervisés et des algorithmes d'inférence pour transformer des données à l'échelle en connaissances. Le projet prend en compte le contexte de l'échelle dans son ensemble, avec les principales questions liées à l’inférence à partir d'un grand volume de données de grande dimension et avec des structures complexes latentes. Son principe est d'introduire des modèles de régression parcimonieux (non)paramétriques pour la représentation, et des modèles à variables latentes à l’échelle pour la classification non-supervisée. L'extraction de connaissances consistera à restaurer des structures cachées, des prototypes résumés, des groupes, des représentations parcimonieuses. Nous considérons notamment des données fonctionnelles, bioacoustiques multimodales, et génomiques.

modèles à variables latentes et apprentissage non-supervisé

- latent variable models for high-dimensional regression, including functional regression and functional regressions mixture models
- latent variable models for high-dimensional classification and clustering in high-dimensional scenarios
- latent variable models for unsupervised learning and bioacoustics

Résultats

voir le rapport pdf pour plus de détails:
- résultats théoriques méthodologiques et computationnels sur les capabilities d'approximation, d'estimation et de sélection de modèles dans les modèles à variables latentes, en particulier les mélanges de densité et les mélanges d'experts

Perspectives

partie deep latent variable models et clustering distribué

Productions scientifiques et brevets

voir rapport intermédiaire

Résumé de soumission

L'analyse de données à l'échelle est un domaine pluridisciplinaire de plus en plus important dans la société actuelle. SMILES est un
projet collaboratif de recherche fondamentale qui vise à introduire des modèles non supervisés et des algorithmes d'inférence pour
transformer des données à l'échelle en connaissances. Le projet prend en compte le contexte de l'échelle dans son ensemble, avec
les principales questions liées à l’inférence à partir d'un grand volume de données de grande dimension et avec des structures
complexes latentes. Son principe est d'introduire des modèles de régression parcimonieux (non)paramétriques pour la
représentation, et des modèles à variables latentes à l’échelle pour la classification non-supervisée. L'extraction de connaissances
consistera à restaurer des structures cachées, des prototypes résumés, des groupes, des représentations parcimonieuses. Nous
considérons notamment des données fonctionnelles, bioacoustiques multimodales, et génomiques.

Faicel CHAMROUKHI (LABORATOIRE DE MATHÉMATIQUES NICOLAS ORESME)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LMNO LABORATOIRE DE MATHÉMATIQUES NICOLAS ORESME
LMRS LABORATOIRE DE MATHEMATIQUES RAPHAEL SALEM
LIS Laboratoire d'Informatique et Systèmes
MODAL MOdel for Data Analysis and Learning

Aide de l'ANR 338 904 euros
Début et durée du projet scientifique : octobre 2018 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.