IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Administration système Discussion :

Impossible, durant quelques minutes, de lancer des process fils


Sujet :

Administration système

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juillet 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2005
    Messages : 38
    Par défaut Impossible, durant quelques minutes, de lancer des process fils
    Bonjour,
    Mon serveur d'entreprise sous RHEL fonctionne depuis une dizaine d'années, avec 150 utilisateurs connectés en même temps.
    Le mois dernier, et une seconde fois la semaine dernière, le système s'est comme "figé", impossible de lancer une instruction qui lance un process fils.
    Les utilisateurs connectés pouvaient naviguer dans le logiciel, faire défiler la base de données.
    Mais :
    => impossible de se connecter (pour ceux qui ne l'étaient pas) (utilisateurs sous Windows, on utilise Putty en SSH pour se connecter).
    => pour ceux qui étaient connectés, impossible de lancer une impression (shell et exécutable pour convertir un flux de données en document avec mise en page en PCL ou en PDF).
    Et ceci durant une dizaine de minutes.

    J'ai cherché déjà dans :
    vmstat => le système est quasiment au repos : pas d'accès disque délirant, CPU dispo à 98%, mémoire loin d'être saturée, interruptions normales
    limitations SSH => je n'ai pas vu de limite déclarée
    nombre de process => actuellement (60% de l'effectif), j'ai 83 utilisateurs connectés, et 568 process dans "ps aux", alors que "ulimit -p" m'indique un max de 7168 process, j'en suis très très loin.

    Si quelqu'un a déjà eu ce genre de curiosité, ou aurait des pistes de diagnostic, je serais enchanté de partager...

    Merci déjà de m'avoir lu.

  2. #2
    Expert confirmé
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    11 158
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 11 158
    Par défaut
    Citation Envoyé par JeanMiG Voir le message
    Bonjour,
    Mon serveur d'entreprise sous RHEL fonctionne depuis une dizaine d'années,
    Un futur problème de disque dur qui commence à fatiguer ?

  3. #3
    Membre averti
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juillet 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2005
    Messages : 38
    Par défaut
    J'ai oublié de préciser.....

    Il y a 15 ans, ce serveur (OS + DB + Applis) tournait sur un serveur physique (sur roulettes).
    Il y a 10 ans, cette même appli (OS + DB + applis) tournait sur un serveur lame en rack.
    Il y a 4 ans, j'ai migré l'ensemble (idem) sur une VM sous VMWare, sur un serveur physique en rack, avec baie de disque NetApp partagée.
    D'où ma première idée : une autre VM sur le même serveur physique utilise la totalité des ressources (CPU ou mémoire). Ou encore, une autre VM sur un autre serveur physique utilise la totalité des ressources de stockage (baie de disques NetApp partagée par tous les serveurs).
    Idée abandonnée, puisque les utilisateurs qui étaient connectés auparavant, ont continué à travailler, naviguer dans l'appli, faire défiler les données de la base de données, lancer des calculs.... Mais dès que cette appli lance un shell (impression en PCL ou PDF, conversion de flux en fichier Excel, ..)... rien ne se passe, écran figé. Idem lorsque d'autres voulaient se connecter... le mot "login:" ne s'affiche pas.
    Ca dure entre 10 minutes et un quart d'heure. Rien dans aucun log système sous /var/log, ni message, ni maillog, ni ....
    Et ça repart, comme si de rien n'était, plein pot, impressions, connexions, ... tout normal !
    En 30 ans de Unix puis Linux, jamais vu ce phénomène.

    Une modification récente tout de même (je juge utile de le préciser) : le moteur de base de données était limité à 150 utilisateurs en simultanée, mais avec l'accroissement des effectifs, j'ai dû augmenter ce quota, je limite aujourd'hui à 180 connexions. J'ai fait cette modification en septembre. J'ai eu 2 fois 10 minutes d'arrêt.
    Donc je suis convaincu aujourd'hui que c'est une histoire de ressource, de quota, de nombre de connexions, de nombre de process, .... de saturation quelque part... mais sans log, sans message d'erreur, ...
    Il y a plusieurs années, j'avais été confronté à un nombre de tty limité, et j'avais dû utiliser des instructions pour créer des tty supplémentaires dans les répertoires /etc. Mais aujourd'hui ce n'ai pas ça...
    Quel mystère !!!!

  4. #4
    Expert confirmé
    Avatar de Jipété
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    11 158
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 11 158
    Par défaut
    OK, ça me dépasse.

    Faudrait ratisser plus large : poster dans les sous-forums de BdD, d'architecture, faut aller jouer dans la cour des grands, moi je suis un tout petit.

  5. #5
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    18 318
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 18 318
    Par défaut
    Ce serait pas une tache planifiée ? sauvegarde ?
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

  6. #6
    Expert confirmé Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 376
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 376
    Par défaut
    Bonjour,

    Pour moi, ça ressemble à un problème réseau...

    Est-ce que tu arrives à "pinguer" ton serveur quand ça arrive ?

    Ton serveur est en direct sur le net ou proxy-fié ?

    Voir aussi si le serveur ne se proxyfie pas lui-même...

  7. #7
    Membre averti
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juillet 2005
    Messages
    38
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2005
    Messages : 38
    Par défaut
    Bonjour,

    Merci pour vos idées...

    A l'heure où ça arrive, pas de sauvegarde, des cron oui et en particulier un cron qui "gicle" les utilisateurs qui n'ont pas touché au clavier depuis 1h (grâce à l'instruction w) de manière à faire de la place pour ceux qui souhaitent se connecter. Et à l'heure où c'est arrivé, ce "killer" avait tourné 2 minutes plus tôt.
    Réseau : il s'agit d'un serveur de gestion de prod, c'est un serveur interne à l'entreprise, pas de connexion extérieure (sauf VPN).

    Si ce n'est pas le nombre de PID qui bloque (je n'utilise que 1% des process), est-ce que ça peut être le gestionnaire de ces numéros (ce ne serait pas init ?) qui est occupé à autre chose, et ne fournit pas de PID pour pouvoir lancer effectivement ces process (session utilisateur, shell script de calcul, exécutable de conversion, ..) ?
    Ce serait étrange... Mais de toute façon le phénomène est très étrange.
    Et quoi de plus difficile à voir qu'un phénomène éphémère qui se produit 2 fois en trois mois. Non reproductible pour l'instant...
    Je vais tenter de le reproduire en sollicitant beaucoup la machine => création de centaines de shell, de connexions, écriture d'un exé qui va dévorer la mémoire, ...
    Le "top" tourne en permanence, mais il reste très calme, et se rafraîchit sans broncher.
    Mais quand c'était arrivé, impossible de lancer "top" : impossible de lancer un exé ! Mais bizarrement il était possible de lancer "ps aux", mais "ps aux|wc" ne passait pas, ça lance trop de process, donc écran noir et rien... <Ctrl>-C rend la main...

    Merci à vous tous.

  8. #8
    Expert confirmé Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par défaut
    salut,

    avec un serveur aussi vieux et à priori d'entreprise, la bonne idée c'est d'avoir des graphs et du monitoring (remontées d'alertes), ça permet d'identifier plus facilement d'où viennent les problèmes, de mesurer l'impact des changements apportés à la machine à court, moyen et long terme, d'être notifié en temps réel quand les incidents se produisent etc.

    en l'occurrence ça pourrait venir de tout et n'importe quoi de mon point de vue, de la bizarrerie réseau à la modif système oubliée en passant par le manque de RAM, le disque hôte défectueux, la VM voisine qui empiète sur les ressources, jusqu'à la blagounette malveillante d'un collègue etc. difficile de dire sans plus d'éléments.

  9. #9
    Membre chevronné

    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Octobre 2010
    Messages
    178
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux

    Informations forums :
    Inscription : Octobre 2010
    Messages : 178
    Par défaut
    Que donne un dmesg ?

Discussions similaires

  1. Popen : lancer des processus fils
    Par roipoussiere dans le forum Général Python
    Réponses: 13
    Dernier message: 18/01/2014, 08h55
  2. Retrouver les pid des process fils d'une commande.
    Par PauseKawa dans le forum Général Python
    Réponses: 2
    Dernier message: 06/09/2009, 15h53
  3. Impossible de lancer des exe
    Par sondo dans le forum Sécurité
    Réponses: 4
    Dernier message: 09/02/2009, 11h09
  4. Lancer un process dès qu'il tombe
    Par devdev2003 dans le forum Administration système
    Réponses: 4
    Dernier message: 13/06/2005, 22h44

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo