Traitement intensif de données à très grande échelle à l'aide du paradigme MapReduce sur des infrastructures de type cloud et hybrides – MapReduce
Map-Reduce est un modèle de programmation parallèle qui a été utilisé avec succès par des grands fournisseurs de service sur Internet pour effectuer des traitements de données massives. Après avoir été fortement soutenu par Google, ce modèle devient actuellement de plus en plus populaire. Il permet en effet d'implémenter facilement et rapidement des applications distribuées de traitement intensif de données. La clé du succès de ce modèle est son degré inhérent de parallélisme massif qui devrait permettre de traiter des petaoctets de données en quelques heures sur de grands grappes faites de plusieurs milliers de nœuds.
Dans ce contexte, ce projet a pour objectif de surmonter les limitations des environnements actuels de Map-Reduce comme Hadoop et de permettre ainsi le traitement de données à ultra-grande échelle sur diverses architectures comme les "clouds", les grilles de PC ("desktop grids") et les infrastructures hybrides construites en combinant ces deux types d'architectures.
Pour atteindre ce but, plusieurs aspects critiques doivent être considérés: l'architecture de stockage et de partage des données, l'ordonnancement, la tolérance aux fautes et la sécurité. Notre but est d'explorer comment le fait d'étudier simultanément ces aspects permet d'améliorer le comportement des applications Map-Reduce sur les grilles, les "clouds" et les grilles de PC.
Notre contribution sera illustrée en proposant une architecture avancée de gestion des données qui satisfasse ces objectifs et en la validant expérimentalement. Dans cette tâche, nous nous appuierons sur les récentes contributions des partenaires associés dans le projet: BlobSeer, un système de gestion de données pour les très grandes données non structurées développé par l'équipe KerData; BitDew, un système de gestion des données pour les grilles de PC en cours de conception par l'équipe GRAAL; et Nimbus, un environnement ouvert de gestion des "clouds" développé à l'Université de Chicago et au Argonne National Labs.
Coordination du projet
Gabriel Antoniu (INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE - INRIA)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
MEDIT SA MEDIT SA
IBM France COMPAGNIE IBM FRANCE - Cie IBM France
Joint Laboratory for Petascale Computing INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE - (INRIA Saclay)
CNRS IBCP CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE - DELEGATION REGIONALE RHONE-AUVERGNE
CR INRIA - Grenoble - Rhône-Alpes - GRAAL INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE - (INRIA Siège)
INRIA - Rennes - Bretagne Atlantique INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE - INRIA
Aide de l'ANR 832 970 euros
Début et durée du projet scientifique :
- 42 Mois