IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Parsing logs python


Sujet :

Python

  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    Août 2009
    Messages
    146
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 146
    Points : 100
    Points
    100
    Par défaut Parsing logs python
    Hello les experts,

    J'ai créé un bout de code en python pour observer mes serveurs et instances SQL.
    Il me manque "juste" la partie parsing de logs.

    Je vais donc parser les fichiers windows evtx et les fichiers SQL errorlog.log.
    En gros analyser 3 à 4 fichiers de 1 à 100 Mo.
    Je vais extraire ensuite tous les evtx warning et error + SQL error dans un fichier séparer que je vais agréger à mon rapport.

    Mes questions sont les suivantes:
    - Est-ce que j'ai intérêt à faire des readline + regex ( a ce qu'il parait c'est très lent RE sur les gros fichiers)
    - Connaissez vous d'autres techniques ?
    - Connaissez-vous un module compatible python 3.5.3 qui fasse bien le travail et soit efficace en thermes de performances ?

    Merci d'avance pour vos conseils.

  2. #2
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 690
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 690
    Points : 30 986
    Points
    30 986
    Billets dans le blog
    1
    Par défaut
    Bonjour

    En fait, ta question concerne juste la rapidité de lecture d'un fichier. Ben non, désolé, mais non. Si tu veux lire un log de 5000 lignes, ben pour lire la 5000° il te faudra d'abord lire les 4999 précédentes. C'est justement pour ça que les concepteurs de langages dédiés aux traitements de grosses masses de données (COBOL, bdd diverses) ont créé le concept "d'index" (petit fichier parallèle contenant une petite partie de l'information ainsi que la position de l'information complète dans le fichier principal). Mais même un index ne peut rien quand on veut lire tout un fichier sans rechercher une information particulière.

    Ceci dit, comme un fichier est un itérable dans Python, et que l'itérateur renvoie des lignes, tu peux alors remplacer un while True: lig=fp.readline() par un for lig in fp. A mon avis ça va un peu plus vite. De plus tyrtamos est intervenu sur une discussion similaire en disant que lire un fichier par bloc allait plus vite que lire un fichier par lignes. Mais ça t'oblige ensuite à reconstruire manuellement les lignes à traiter (et surtout gérer quand le bloc lu s'arrête en milieu de ligne).
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  3. #3
    Expert éminent Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 035
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 035
    Points : 8 400
    Points
    8 400
    Par défaut
    salut,

    Citation Envoyé par AlternantOracle Voir le message
    En gros analyser 3 à 4 fichiers de 1 à 100 Mo.
    (...)
    - Est-ce que j'ai intérêt à faire des readline + regex ( a ce qu'il parait c'est très lent RE sur les gros fichiers)
    - Connaissez vous d'autres techniques ?
    c'est à mon avis pas la mer à boire, d'autant que c'est pas à analyser chaque seconde j'imagine, donc même si la totalité du traitement prend 20s est-ce vraiment dérangeant ?

    ensuite "les regex c'est lent" oui et non, c'est souvent bien plus rapide qu'on croit, surtout si on sait optimiser un peu ses expressions d'une part et qu'on oublie pas de les compiler d'autre part

    tout dépend de ce que tu cherches, et s'il est question d'analyser le même log plusieurs fois (peu importe à quel intervalle), créer une table d'indexation peut effectivement être une idée intéressante, on analyse la 1ère fois, les fois suivantes on se réfère à la table pour query plus vite dans le fichier

  4. #4
    Membre régulier
    Profil pro
    Inscrit en
    Août 2009
    Messages
    146
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 146
    Points : 100
    Points
    100
    Par défaut
    Bonjour,

    tout d'abord merci pour vos retours. Concernant la partie EVTX j'ai trouvé un très bon script pour extraire en XML:
    https://github.com/williballenthin/python-evtx/

    Pour la partie errorlog, je vais tester les 2 et je vous tiens au courant sur mes tests.

Discussions similaires

  1. parsing de fichier texte log
    Par shalfat dans le forum Langage
    Réponses: 16
    Dernier message: 19/06/2014, 10h00
  2. Python XML Parsing
    Par benoxy dans le forum Général Python
    Réponses: 4
    Dernier message: 17/10/2011, 20h45
  3. Parsing d'un fichier log
    Par taieb84 dans le forum Logging
    Réponses: 0
    Dernier message: 14/03/2011, 11h10
  4. [Débutant] Parsing fichier log
    Par fabrozor dans le forum Langage
    Réponses: 5
    Dernier message: 31/01/2011, 09h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo