La consommation énergétique des plates-formes de calcul à hautes performances (HPC) a toujours été importante. Aujourd'hui, la transition vers les plates-formes de nouvelle génération et la convergence avec le Cloud, BigData et Internet des objets rendent ce problème encore plus critique. L'objectif est d'améliorer considérablement les performances de calcul sans augmenter l’ordre de grandeur en consommation énergétique. Pour atteindre cet objectif, une révolution dans la gestion des ressources est clairement nécessaire.
Le défi principal est donc d'obtenir radicalement plus de Flop/s que dans les systèmes actuels pour le même nombre de watts.
Pour s'attaquer aux grands défis sociétaux (par exemple sur la santé ou la sécurité), les plates-formes HPC évoluent vers des machines comprenant des milliers de processeurs ayant des centaines de coeurs chacun, accompagnés de co-processeurs spécialisés.
Le nombre d'unités de calcul va énormément augmenter, mais les entrées/sorties et les réseaux d'interconnexion évoluent beaucoup plus lentement et la hiérarchie mémoire sera plus profonde qu'aujourd'hui. De plus, une capacité de calcul accrue entraîne automatiquement une production de données également accrue, ajoutant donc une saturation à la fois au coeur des noeuds de calculs, mais également entre les noeuds. Construire un système exascale ne garantit pas de pouvoir utiliser toute cette puissance au service des applications. Il faut également fournir des outils efficaces pour faire fonctionner ces plates-formes à un rendement soutenu. Un élément clé pour la conception des applications est de mieux utiliser la hiérarchie mémoire et d'optimiser les mouvements de données. A notre connaissance, il n'y a pas eu d'études jusqu'ici sur des méthodes explicites de réduction de la consommation énergétique en améliorant les placements des applications et en optimisant les mouvements de données grâce aux informations extraites des applications elles-mêmes.
Le projet ENERGUMEN vise à concevoir, étudier et valider des outils pratiques pour l'allocation efficace en énergie de tâches sur plate-forme HPC à large échelle.
De nombreux mécanismes d'économie d'énergie existent déjà dans ces plates-formes, comme l'ajustement de fréquence ou l'extinction de noeuds. Mais, les études sur ces mécanismes se basent souvent sur des modèles idéalisés ou restreints. Alternativement, l'énergie peut également être économisée en réduisant les mouvements de données grâce à un placement des tâches améliorant la localité des communications. Ces approches sont cependant limitées par une vision des tâches en boite noire.
Dans ce projet, nous proposons deux approches pour améliorer le compromis entre énergie et performance. Premièrement, nous revisiterons les mécanismes classiques de vitesse variable et d'extinction en utilisant le modèle des tâches malléables, qui permet de modifier dynamiquement le temps d'exécution des tâches en fonction de leur profil énergétique temporel. Nous étudierons également des politiques optimisées pour le placement de données au niveau logiciel. L'objectif est d'introduire plus de souplesse dans la gestion de ressources hétérogènes pour les plates-formes HPC. Il y a de nombreux défis scientifiques et technologiques pour déterminer le meilleur compromis entre les deux mécanismes. La conception de modèles adéquats et méthodes d'optimisation efficaces dépend beaucoup de la collecte et de l'analyse des grandes quantités de données produites par ces plates-formes. Nous proposons aussi de développer et tester plusieurs prototypes logiciels pour les data centers.
Dans la réalisation de grandes plates-formes HPC, où un compromis entre performance et consommation énergétique est nécessaire, l'originalité d'ENERGUMEN est de revisiter les principes des gestionnaires de ressources existants en s'appuyant sur la flexibilité (malléabilité) des applications.
Monsieur Denis Trystram (Laboratoire d'informatique de Grenoble)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
IRIT Institut de Recherche en Informatique de Toulouse
LIG Laboratoire d'informatique de Grenoble
LIP6 Laboratoire d'informatique de Paris 6
Aide de l'ANR 534 313 euros
Début et durée du projet scientifique :
octobre 2018
- 48 Mois