DS0705 -

Un nouveau service de base de données pour l'exploration interactive sur Big Data – AIDE

Résumé de soumission

Les masses de données sont aujourd'hui générées à un rythme sans précédent. Malgré cette croissance phénoménale de données, la capacité humaine à les traiter reste aussi limitée qu'au paravant. Par conséquent, l'ère DU "Big Data" est confrontéE à un écart croissant entre la croissance des données et la capacité humaine a les traiter - cet écart va inévitablement empêcher les grandes masses de données de réaliser les espoirs suscités en particulier par les grandes bases de données émergentes, telles que la santé et le calcul scientifique, où les besoins analytiques sont immenses tandis que le savoir-faire technique des professionnels est limité.

Pour combler cet écart, nous proposons "Interactive Exploration Data", un nouveau système de gestion de base de données (DBMS), et une large panoplie de nouveaux algorithmes et optimisations afin de soutenir efficacement ce service four la science, la santé et Les affaires. Notre recherche préconise une nouvelle approche de l'exploration de données assistée par DBMS et par l'apprentissage automatique des besoins de l'utilisateur pour récupérer tous les objets qui correspondAntS. Selon cette approche, le DBMS met à profit l'utilisateur des retours de pertinence sur des échantillons de base de données pour modéliser l'intérêt de l'utilisateur, et fait des «décisions d'exploration" stratégiques sur son vaster contenu pour choisir les meilleurs échantillons pour accélérer la convergence du modèle. L'on s'attend à ce que notre recherche passe progresser l'état de l'art (1) en théorie de l'apprentissage pour l'exploration interactive de données, avec de nouvelles stratégies d'exploration sur de grandes bases de données et des résultats démontrables de vitesse de convergence du modèle, et (2) en conception de SGBD, y compris de nombreuses nouvelles techniques de traitement des requêtes et d'optimisation pour soutenir des taches de travail d'exploration avec des performances interactives et une grande "scalability".

Nous prévoyons que ce projet générera des impacts scientifiques, sociaux et économiques importants.

- Scientifique: Ce projet permettra la diffusion d'une approche formelle de l'exploration de données fondée sur un cadre d'apprentissage rigoureux, ainsi que des algorithmes et des techniques d'optimisation dans le DBMS pour assurer une performance interactive et "scalability". Ces résultats seront diffusés via des publications scientifiques, des démonstrations de système, des visites de laboratoires de recherche deS industrieS concernéeS, et la mise à disposition de code open-source à la communauté scientifique. En outre, notre projet permettra une synergie étroite entre les systèmes de base de données, l'apprentissage machine, et la visualisation, et aidera à monter ultérieurement un projet ERC ambitieux. Il permettra également d'intégrer étroitement recherche et éducation intégrant nos résultats de recherche nos enseignements au moment opportun.

- Sociétal et économique: Notre nouveau service de DBMS d'exploration de données automatisée sera crucial pour analyser de grands ensembles de données complexes rencontrés dans LES nombreuses applications dans les domaines des sciences, de la santé et des affaires. L'effort humain lors de l'exploration des données sera beaucoup plus réduit, puisque l'utilisateur sera méthodiquement dirigé vers ses véritables intérêts, et pourtant la qualité de l'exploration sera nettement améliorée, puisqu'une telle exploration sera placée dans un cadre rigoureux d'apprentissage Avec des méthodes formelles avec résultats démontrables. En particulier, notre collaboration prévue avec le CNAMTS a le potentiel d'apporter des avantages directs pour le secteur Français de la santé, conduisant à la fois à un impact sociétal du point de vue biomédical, et à un impact économique, la santé publique étant le premier budget de la France.

Coordination du projet

Yanlei Diao (ECOLE POLYTECHNIQUE)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

ECOLE POLYTECHNIQUE ECOLE POLYTECHNIQUE

Aide de l'ANR 299 716 euros
Début et durée du projet scientifique : septembre 2016 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter