Blanc SIMI 3 - Sciences de l'information, de la matière et de l'ingénierie : Matériels et logiciels pour les systèmes, les calculateurs, les communications

Résilience des applications scientifiques sur machines exascales – RESCUE

RESCUE

Resilience des applications scientifiques sur machines exascales

Resilience pour les applications exascales

L'apparition des machines exascale est attendue pour résoudre de nouveaux défis scientifiques. Mais les applications scientifiques déployées sur ces machines comportant plusieurs millions de processeurs <br />devront pouvoir tolérer de nombreuses pannes. Le principal objectif du projet RESCUE est de développer de nouvelles techniques algorithmiques <br />et outils logiciels afin de résoudre ce problème de la tolérance aux pannes sur les machines exascale.

Le projet suit trois axes de recherches:
(i) protocoles de sauvegarde: mécanismes de sauvegarde et de migration à la fois légers et passant à l'échelle.
(ii) modèles d'exécution: modèles stochastiques pour prédire (et donc optimiser) la performance d'une application scientifique parallèle à grande échelle.
(iii) algorithmes parallèles: méthodes numériques et algorithmes robustes qui convergent même en présence de nombreuses pannes.

Seule la combinaison de ces trois avancées
(nouveaux protocoles de sauvegarde, nouveaux modèles d'exécution, et nouveaux algorithmes parallèles) peut résoudre le problème de
tolérance aux pannes à l'échelle exascale. Nous espérons ainsi contribuer à la résolution de ce problème critique en fournissant à la communauté de nouveaux modèles, protocoles, et algorithmes, ainsi
qu'un ensemble de prototypes logiciels de domaine public librement accessibles.

Protocoles pour la tolérance aux pannes à l'échelle exascale

Modèles de performance et d'exécution pour les applications à l'échelle exascale

Algorithmes numériques robustes à l'échelle exascale

Le projet a produit 31 publications à ce jour.

L'apparition des machines exascale (i.e., de puissance de crête proche
d'un exaflop) est attendue pour résoudre de nouveaux défis
scientifiques. Cependant, il faudra que les
applications scientifiques déployées sur ces machines comportant
plusieurs millions de processeurs puissent
tolérer de nombreuses pannes: on prévoit
qu'avec les techniques actuelles,
le temps moyen entre deux pannes consécutives sera inférieur à la
durée moyenne de la sauvegarde de l'application (ou checkpoint),
c'est-à-dire au temps nécessaire pour transférer et archiver les
données. Il sera donc impossible d'utiliser les
méthodes et outils actuels.

Le principal objectif du projet RESCUE est de développer de
nouvelles techniques algorithmiques et outils logiciels afin de
résoudre le problème de la tolérance aux pannes sur les machines
exascale. Résoudre ce problème demande de s'éloigner des approches
existantes et nécessite de nouveaux algorithmes, protocoles et outils
logiciels.

Le projet proposé suit trois axes de recherches. Le premier axe
traite des protocoles de sauvegarde
(checkpoint). Cet axe inclut l'analyse des
types de pannes pertinents et le développement d'un outil logiciel
permettant l'introduction de pannes lors de l'exécution d'une
application, mais la principale activité de recherche sera la
conception et le développement de mécanismes de sauvegarde et de
migration à la fois légers et passant à l'échelle, par exemple en
sauvegardant à la volée les données clé de l'application, en prenant
des décisions distribuées mais coordonnées, etc.
Le second axe concerne le développement de nouveaux modèles
d'exécution, i.e., de
nouveaux modèles stochastiques pour prédire (et donc optimiser) la
performance d'une application scientifique parallèle à grande échelle.
Dans le dernier axe, nous développerons de
nouveaux algorithmes parallèles pour les noyaux de calcul
numérique. Nous choisirons un ensemble représentatif d'applications à
grande échelle pour établir leur spécificité en terme de tolérance aux
pannes (par exemple, identifier des motifs redondants pour réduire le
coût de la sauvegarde). Nous analyserons aussi des compromis
d'exécution en répliquant certains noyaux de calcul déterminants, ainsi
que des techniques distribuées de tolérance aux pannes
algorithmiques. Enfin, nous développerons de nouvelles méthodes
numériques et des algorithmes robustes qui convergent même en présence
de nombreuses pannes.

Protocoles et algorithmes seront implementés dans un
prototype logiciel, qui sera évalué lorsqu'il est confronté à des pannes
réalistes générées par nos techniques d'introduction de pannes. Ce
prototype logiciel sera intégré dans le projet
domaine public MPICH2.

Nous sommes persuadés que seule la combinaison de ces trois avancées
(nouveaux protocoles de sauvegarde, nouveaux modèles d'exécution, et
nouveaux algorithmes parallèles) peut résoudre le problème de
tolérance aux pannes à l'échelle exascale. Nous espérons ainsi
contribuer à la résolution de ce problème critique en fournissant à la
communauté de nouveaux modèles, protocoles, et algorithmes, ainsi
qu'un ensemble de prototypes logiciels de domaine public librement
accessibles.

L'équipe de projet RESCUE compte des scientifiques établis, dont
l'expertise est complémentaire, qui se trouvent réunis pour la première
fois. Le projet est conduit en collaboration avec des
chercheurs américains de pointe: Marc Snir et Bill Gropp de
l'Université de l'Illinois à Urbana Champaign
et Henri Casanova de l'Université d'Hawaï.
La collaboration avec Marc Snir et Bill
Gropp est conduite sous l'égide du laboratoire commun INRIA-Illinois à
Urbana Champaign, co-dirigé par Franck Capello et Marc Snir, alors que
la collaboration avec Henri Casanova est officialisée par une équipe
commune INRIA-NSF. Ceci explique pourquoi nous ne nous engageons pas
dans un accord ANR-NSF plus formel.

Coordinateur du projet

Monsieur Yves ROBERT (INRIA - Siège) – Yves.Robert@ens-lyon.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

INRIA INRIA - Siège

Aide de l'ANR 503 689 euros
Début et durée du projet scientifique : - 48 Mois

Liens utiles