Scheduling Moldable Jobs on Failure-Prone Platforms - Rapports de recherche et Technique de l'Inria Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2020

Scheduling Moldable Jobs on Failure-Prone Platforms

Ordonnancement avec tolérance aux pannes pour des tâches parallèles à nombre de processeurs programmable

Résumé

This paper focuses on the resilient scheduling of moldable parallel jobson high-performance computing (HPC) platforms. Moldable jobs allow for choosing aprocessor allocation before execution, and their execution time obeys various speedup models. The scheduling objective is to minimize the overall completion time, or makespan, assuming that jobs are subject to arbitrary failure scenarios, and hence may need to bere-executed each time they fail until they complete successfully. This work generalizes the classical framework where jobs are known offline and do not fail. We introduce alist-based algorithm, and prove new approximation ratios for three prominent speedupmodels (roofline, communication, Amdahl). We also introduce a batch-based algorithm,where each job is allowed only a restricted number of failures per batch, and prove a new approximation ratio for the arbitrary speedup model. We conduct an extensive set of simulations to evaluate and compare different variants of the two algorithms, and the results show that they consistently outperform the baseline heuristics. In particular, the list algorithm performs better for the roofline and communication models, while the batch algorithm has better performance for the Amdahl’s model. Overall, our best algorithm is within a factor of 1.47 of a lower bound on average over the whole set of experiments, and within a factor of 1.8 in the worst case.
Ce rapport étudie l’ordonnancement résilient de tâches sur des plateformes de calcul à haute performance. Dans le problème étudié, il est possible de choisir le nombre constant de processeurs effectuant chaque tâche, en déterminant le temps d’exécution de ces dernières selon différent modèles de rendement. Nous décrivons des algorithmes dont l’objectif est deminimiser le temps total d’exécution, sachant que les tâches sont susceptibles d’échouer et de devoir être ré-effectuées à chaque erreur. Ce problème est donc une généralisation du cadre classique où toutes les tâches sont connues à priori et n’échouent pas. Nous décrivons un algorithme d’ordonnancement par listes de priorité, et prouvons de nouvelles bornes d’approximation pour trois modèles de rendement classiques (roofline, communication, Amdahl). Nous décrivons également un algorithme d’ordonnancement par lots, au sein desquels les tâches pourront échouer un nombre limité de fois, et prouvons alors de nouvelles bornes d’approximation pour des rendements quelconques. Enfin, nous effectuons des expériences sur un ensemble complet d’exemples pour comparer les niveaux de performance de différentes variantes de nos algorithmes, significativement meilleurs que les algorithmes simples usuels .L’algorithme par listes surpasse l’algorithme par lots sur les modèles roofline et communication, tandis que l’inverse se produit pour le modèle Amdahl. Notre meilleure heuristique est en moyenne `a un facteur 1.47 d’une borne inférieure de la solution optimale, et à un facteur 1.8 dans le pire cas.
Fichier principal
Vignette du fichier
rr9340.pdf (1.28 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02614215 , version 1 (20-05-2020)
hal-02614215 , version 2 (25-01-2021)

Identifiants

  • HAL Id : hal-02614215 , version 1

Citer

Anne Benoit, Valentin Le Fèvre, Lucas Perotin, Padma Raghavan, Yves Robert, et al.. Scheduling Moldable Jobs on Failure-Prone Platforms. [Research Report] RR-9340, Inria - Research Centre Grenoble – Rhône-Alpes. 2020. ⟨hal-02614215v1⟩
213 Consultations
211 Téléchargements

Partager

Gmail Facebook X LinkedIn More