DS0707 -

Traitement de données massives: allons au-delà d'Hadoop! – KerStream

Résumé de soumission

L'évolution du Big-Data, l'expansion du cloud computing et le succès du model Map-Reduce ont favorisé l'apparition de nouvelles applications de traitement intensif de données. Ces applications sont de plus en plus tournées vers le traitement instantanée des données comme le traitement temps réel d'un flux de données. Grâce à des cas d'utilisation variés (analyse temps réel de l'activité des utilisateurs, supervision réseau, préventions diverses, etc), ces
applications connaissent une place de choix dans les grands centres de calcul actuels.

Hadoop est reconnu comme l'intergiciel le plus populaire pour les traitements de type Big-Data dans le cloud. Néanmoins Hadoop n'est pas approprié pour des traitements nécessitant des faibles latences parce que les données manipulées doivent être stockées dans un système de fichier distribué. Même si plusieurs logiciels ont été créés pour traiter des flux de données, la plupart n'intègrent que des stratégies de type best-effort de gestion de panne (pannes et utilisation à large échelle vont de pair). En outre, ces systèmes sont conçus pour s'exécuter dans un environnement maîtrisé et donc souffrent de performance non déterministes lors qu'ils sont déployés à grand échelle dans le Cloud (contention sur les ressources, variation des performances, et fort taux de panne).

Le projet KerStream s'attaque aux limitations d'Hadoop, et vise à aller au delà de ses limitations en s'appuyant sur le développement d'une nouvelle approche. Kerstream se veut un système robuste de traitement temps-réel dans le Cloud. Pour assurer de faible latences Kerstream garde les calculs et données en mémoire. En outre, Kerstream s'appuie sur un ensemble de nouvelles techniques qui permettent aux applications de s'adapter automatiquement aux variations de performance et aux pannes. Enfin Kerstream offre un ensemble de politiques d'ordonnancement pour permettre à plusieurs applications d'atteindre leur objectifs de qualité de service (faible latence pour le traitement temps-réel) et de forte utilisation des ressources.

Coordination du projet

Shadi Ibrahim (Centre de recherche Inria Rennes - Bretagne Atlantique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Inria Rennes - Bretagne Atlantique Centre de recherche Inria Rennes - Bretagne Atlantique

Aide de l'ANR 237 180 euros
Début et durée du projet scientifique : janvier 2017 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter