Ordonnancement de tâches HPC adaptatives pour naviguer dans le marasme énergétique – EnergyDoldrums
Le calcul à haute performance (HPC) est essentiel pour les avancées dans les domaines de la science et de l'ingénierie, et son utilisation a augmenté avec l'essor de l'intelligence artificielle (IA). Cependant, des défis tels que l'escalade des coûts de l'électricité et la nécessité de réduire les émissions de carbone font peser des contraintes sur les ressources informatiques à l'échelle mondiale. La nature intermittente des sources d'énergie renouvelables complique encore les choses, en introduisant une variabilité à l’échelle de quelques heures. Par conséquent, les fournisseurs de HPC peuvent avoir besoin d'ajuster dynamiquement la capacité des systèmes sur la base de compromis entre le coût et la demande ou de restreindre temporairement les ressources pour répondre aux contraintes énergétiques. Cette adaptabilité introduit une nouvelle dimension dans les systèmes HPC, en les rendant malléables - une caractéristique précédemment associée à des classes de tâches spécifiques.
La malléabilité permet aux travaux d'ajuster dynamiquement leur utilisation des ressources en réponse aux demandes du programmeur, même avec une capacité de taille fixe. Alors que les charges de travail HPC traditionnelles ont été lentes à adopter la malléabilité en raison d'un support limité, les tâches liées à l'IA, pour lesquelles la malléabilité peut être facilement obtenue, offrent l'opportunité d'une exploitation généralisée de cette caractéristique. En outre, les tâches d'apprentissage de l'IA peuvent modifier leurs besoins en ressources au fur et à mesure que l'apprentissage progresse, ce qui les classe comme évolutives. Par exemple, dans les tâches de vision par ordinateur, la taille idéale du lot augmente au cours de l'apprentissage, ce qui incite à modifier l’allocation des ressources. Le concept de tâches adaptatives, qui englobe à la fois les tâches malléables et les tâches évolutives, est un élément essentiel de la gestion des ressources.
Ce projet se concentre sur le développement d'algorithmes d'ordonnancement pour des charges de travail adaptatives sur des systèmes à capacité variable. La première étape consiste à proposer une formalisation complète du problème, y compris la modélisation du système et la définition des fonctions objectives. Une approche multicritère sera poursuivie, combinant des mesures orientées système (telles que l'efficacité énergétique) avec des mesures orientées utilisateur (telles que la qualité de service). La conception des algorithmes sera fondée sur une analyse théorique, englobant une analyse de complexité, des résultats d'approximation ou d'inapproximabilité, et des bornes inférieures ou supérieures. L'évaluation empirique sera réalisée par simulation à l'aide d'ElastiSim, un simulateur conçu pour les charges de travail malléables, qui sera étendu pour tenir compte des systèmes à capacité variable.
Pour créer des modèles de charge de travail réalistes et afin de valider les résultats, le projet mettra en œuvre un gestionnaire de ressources pour l'apprentissage profond distribué. Ce gestionnaire fonctionnera au-dessus des gestionnaires de ressources standard, orchestrant les tâches à un seul nœud et allouant des ressources aux tâches d'apprentissage à plusieurs nœuds sur demande. Le principal cas d'utilisation de ce projet implique le développement d’algorithmes d'ordonnancement optimisant la vitesse et l'efficacité de l'apprentissage profond distribué sur des systèmes à capacité variable, en modifiant l'ensemble des ressources des tâches d'apprentissage individuelles.
Coordination du projet
Anne BENOÎT (Laboratoire d'Informatique du Parallélisme)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
TUDa Technical University of Darmstadt
LIP Laboratoire d'Informatique du Parallélisme
Aide de l'ANR 163 440 euros
Début et durée du projet scientifique :
mars 2025
- 36 Mois