Bonjour
Une question très technique :
Je réalise des calculs à l'aide d'un code FORTRAN + MPI maison, et des exportations de résultats sont régulièrement effectuées sous forme de fichiers MPI.
Le calcul et les sauvegardes tournent très bien, mais souvent, UNE sauvegarde plante : le fichier MPI a une taille nulle et les autres calculs qui tournent sur mon cluster sont plantés. Ce genre de choses n'arrive pas quand je ne fais pas d'exportations MPI.
Détails importants :
- mon cluster est sous Windows Server 2008 HPC edition
- j'utilise les routines MPI microsoft
- j'utilise un compilateur FORTRAN Intel
- j'ai deux réseaux sur mon cluster : un réseau MPI, qui connecte 8 serveurs, et un réseau gigabit qui connecte les 12 serveurs de calcul du cluster (ainsi que le noeud maître)
- les sauvegardes sont faites via le réseau gigabit, puisque le noeud maître n'est pas connecté au réseau infiniband
- pour les 8 serveurs récents, on a donc des communications MPI qui passent par l'infiniband, SAUF les sauvegardes, qui passent par le gigabit
- pour les 4 autres serveurs de calcul, tout se fait par gigabit
- en raison de la présence de 2 réseaux, les jobs mettent parfois 1 minute à se lancer sur infiniband, alors qu'ils commencent instantanément sur la grappe gigabit
Mes hypothèses (dans le désordre) :
- le MPI Microsoft est buggé... bien que ce soit une base MPICH
- le système ne supporte pas la présence des deux réseaux en MPI
- le switch gigabit peut saturer
Quelqu'un voit ce qui peut poser problème ?
NB : bien que ce ne soit pas du tout mon boulot, je suis seul à gérer le cluster, bien que je ne sois pas ingénieur système.
Partager