|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Membre du Club
![]() Inscription : décembre 2002 Messages : 55 ![]() |
Bonjour,
Dans mon entreprise, un sous-contractant à porté une application de plateformes (redondantes) type "mainframe" à des serveurs bi-processeurs (redondants) Linux. La version Linux est une distribution "particulière" (je ne révèle pas le nom) qui est sensée être une encapsulation d'une RedHat Enterprise. Les seveurs sont 100% certifiés RHE. Le problème, c'est qu'une fois toutes les lunes un des serveurs crash complètement: * Appli morte (a vérifier, cf autres points) * plus d'accès aux périphériques (clavier, souris, écran) * plus de ssh ou autre possible seul le ping de la machine "répond". La seule solution est de rebooter la machine, mais évidemment, aucun log de crash d'appli n'est disponible au reboot (pas de core dump de l'appli) ni de core dump du kernel (j'ai l'impression qu'il vivote toujours puisqu'il répond au ping). Auriez vous des pistes qui me permettrait d'investiguer, un cas similaire, un truc pour essayer de récupérer le serveur, n'importe quelle idée? Merci pour le coup de main. A++ JC
__________________
Far beyond the clouds... |
|
|
00
|
|
|
#2 |
![]() ![]() Inscription : juillet 2004 Messages : 2 246 ![]() |
Tu pourrais essayer monit qui peut te permettre d'automatiser la relancement d'un service qui serait tombé.
Tu peux également essayer d'augmenter le niveau de log des applications suspectes.
__________________
Toutes les vertus des hommes se perdent dans l’intérêt comme les fleuves se perdent dans la mer. |
|
|
00
|
|
|
#3 |
![]() ![]() Nicolas ValléeIngénieur Système Inscription : décembre 2005 Messages : 9 774 ![]() |
petit lien pour monit http://gorgonite.developpez.com/tutoriels/linux/monit/
|
|
|
00
|
|
|
#4 |
|
Membre du Club
![]() Inscription : décembre 2002 Messages : 55 ![]() |
Merci pour votre aide.
JC
__________________
Far beyond the clouds... |
|
|
00
|
|
|
#5 |
|
Membre du Club
![]() Inscription : décembre 2002 Messages : 55 ![]() |
Pour info, le problème était que l'appli qui tourne sur le serveur est définie en mode scheduleur "sched_fifo" (et non "sched_others"). Du fait de cet autre mode scheduleur, et du fait qu'un bug de l'appli provoquait une boucle infinie, le kernel qui dans ce mode sched_fifo ayant une priorité plus faible que le programme ne reprennait plus la main du tout. Ce qui faisait apparaître ces symptomes.
JC
__________________
Far beyond the clouds... |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com