IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Optimisation des perfs d'un script perl


Sujet :

Langage Perl

  1. #1
    Membre confirmé
    Profil pro
    Inscrit en
    Février 2005
    Messages
    85
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 85
    Par défaut Optimisation des perfs d'un script perl
    Bonjour,

    Je dispose d'un script qui traite un fichier plat pour en entraire un CSV.
    J'ai un problème de performance.
    Le script met 55s pour traiter 10000 lignes.
    Mes fichiers font 1 526 843 lignes soit en gros 8397s => plus de 2h
    J'ai 40 fichiers à traiter toutes les nuits et une nuit ne dure pas 80h donc il faudrait que j'optimise le code pour réduire le temps d'execution du script.
    Mais je ne sais pas quoi corriger, il y a peut-être des fonctions moins consomatrice que d'autres...
    Pouvez-vous m'aider?
    Merci

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
     
    #!/usr/bin/perl 
     
    use strict;
    use warnings;
    #use Benchmark;
    use Time::HiRes;
     
    my $g__LogSource  = $ARGV[0];
    my $g__LogDest    = $ARGV[1];
     
     
    #**************************************************************************************
    #*  Proc‰dure:                 CheckVersion($)
    #*  Objectif:                  Permet de v‰rifier si le fichier d'entr‰e est de version
    #*                              4, 5 ou de format non conforme 
    #*  Valeur de Retour:          0 si le fichier est de format invalide
    #*                             1 sinon
    #*  Fonction appel‰e par:      Main EXECUTION
    #*  Fonction fait appels €:           
    #**************************************************************************************
    sub CheckVersion($)
    {
        my $cmd = `head -1 $g__LogSource`;
        if (($cmd !~ "#Software: SGOS 4") and ($cmd !~ "#Software: SGOS 5"))
        {
            return(0);
        }
        else
        {
            if ($cmd =~ "#Software: SGOS 4")
            {
                return(1);
            }
            elsif ($cmd =~ "#Software: SGOS 5")
            {
                return (2);
            }
        }
    }
     
     
     
     
    #*************************************************************************************
    #*  Proc‰dure:                 CloseFiles()
    #*  Objectif:                  Montre comment utiliser le script avec
    #*                            les bons argumentsrameters et quitte le script
    #*  Valeur de Retour:  
    #*  Fonction appel‰e par:    Main EXECUTION
    #*  Fonction fait appels €:           
    #*************************************************************************************
    sub CloseFiles()
    {
            close FICHIER_INPUT;
            close FICHIER_OUTPUT;
    }
     
     
     
    #**************************************************************************************
    #                                   MAIN EXECUTION
    #**************************************************************************************
    if(scalar(@ARGV) != 2){
            print "Verifier l'existence de deux parametres\n";
            print "         <LOGFile_Entree> \t chemin complet du log brut\n ";
            print "         <LOGFile_Sortie> \t chemin complet du fichier de sortie (prefiltre)\n ";
            print "Exemple : perl onf.pl Entree.log Sortie.log\n";
            exit(1);
     
    }
    else{
        if (!CheckVersion($g__LogSource)){
            print "Le Fichier $g__LogSource n'est pas conforme au format attendu, le prefiltrage a ‰t‰ stopp‰ !\n";
            exit 1;
        }
        else{
     
            my $g__Ligne      = "";
            my @g__ListResult = ();
            open(FICHIER_INPUT, "< $g__LogSource") || die ("probleme d'ouverture du fichier en entr\211e (log brut
    ONF)\n");
            open(FICHIER_OUTPUT, "> $g__LogDest")  || die ("probleme d'ouverture du fichier en sortie CSV ONF)\n");
            print FICHIER_OUTPUT "Date Heure time-taken cs-uri-sheme cs-host cs-uri-path msisdn c-ip\n";
            my $td = Time::HiRes::time;
            my $version=CheckVersion($g__LogSource);
            while (defined ($g__Ligne = <FICHIER_INPUT>)){
                next if ($g__Ligne =~ /^[#]/); 
                my $l__TempLigne = $g__Ligne;
                @g__ListResult = ();
     
                my $g__StrBeforeQuotes = undef;
                my $g__StrQuoted = undef;
                my $g__StrAfterQuotes = undef;
     
    #my $start = new Benchmark;
    #my $t1 = Time::HiRes::time;
    #print "$t1\n";
     
                while (defined($l__TempLigne)){
     
                    if ($l__TempLigne =~ /([^"]*)"([^"]*)"(.*)/){
                        ($g__StrBeforeQuotes,$g__StrQuoted,$g__StrAfterQuotes) = $l__TempLigne =~ /([^"]*)"([^"]*)"(.*)/;
                        if (defined($g__StrBeforeQuotes)){
                            #~ $g__StrBeforeQuotes contient un ou pls champs s‰par‰s par espace
                            @g__ListResult = (@g__ListResult, split (" ", $g__StrBeforeQuotes));
                        }
     
                        #~ La ligne de log commence par un champ avec guillemets
                        if (defined($g__StrQuoted)){
                            push (@g__ListResult, "\"$g__StrQuoted\"");
                        }
     
                        if (defined($g__StrAfterQuotes)){
                            $l__TempLigne = $g__StrAfterQuotes;
                            next;
                        }
                        else{
                            last;
                        }
                    }
                    else{
                        @g__ListResult = (@g__ListResult, split (" ", $l__TempLigne));
                        last;
                    }
                }
     
             #my  $end = new Benchmark;
             #my $t2= Time::HiRes::time;
             #my  $diff = $t2 - $t1;
             #print "$t2\n";
             #print "DIFF : ";
             #printf("%f", $diff) ;
             #print "\n";
            ##############################################################################################################
            ## Format de $g__Ligne :
            ##    ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
            ##    |    0  |    1  |      2      |    3  |        4   |       5    |   6      |   7     |     8    |     9          |    10    |     11      |     12      |     13       |    14        |     15        |      16          |       17       |       18         |      19      |   20  |       21       |        22      |      23      |     24         |     25        | [26]    |     [27] |
            ##     --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
            ##    | date  | time  |  time-taken | c-ip  | sc-status  | s-action  | sc-bytes | cs-bytes | cs-method | cs-uri-scheme | cs-host  | cs-uri-port | cs-uri-path | cs-uri-query | cs-username  | cs-auth-group | rs(Content-Type) | cs(User-Agent) | sc-filter-result | cs-category  | s-ip  | c-connect-type | s-computername | connect-time | dnslookup-time | cs-categories | [MVNO]  | [STATUT] |
            ##     -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
            ##
            ## Format du Ouput
            ##
            ##    -----------------------------------------------------------------------------------
            ##    |    0  |    1  |     9          |   10    |     12      |    14        |     3  |
            ##     ----------------------------------------------------------------------------------
            ##    | date  | time  | cs-uri-scheme | cs-host  |cs-uri-path | cs-username  |   c-ip  | 
            ##     ----------------------------------------------------------------------------------
            ##
     
     
                if (((scalar(@g__ListResult) == 28) && ($version==2)) or ((scalar(@g__ListResult) == 26) && ($version==1))){
                    print FICHIER_OUTPUT "$g__ListResult[0] $g__ListResult[1] $g__ListResult[9] $g__ListResult[10] $g__ListResult[12] $g__ListResult[14] $g__ListResult[3]\n";
                }
                else{
                    print "onf.pl => $g__LogSource : une ligne ne correspond pas au format attendu\n";
                } 
            }
            my $tf = Time::HiRes::time;
            my  $di = $tf - $td;
            #print "$t2\n";
            print "DIFF FINAL : ";
            printf("%f", $di) ;
            print "\n";
            CloseFiles();
     
        }
    }

  2. #2
    Membre Expert
    Profil pro
    Inscrit en
    Octobre 2008
    Messages
    1 874
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Octobre 2008
    Messages : 1 874
    Par défaut
    Mais je ne sais pas quoi corriger, il y a peut-être des fonctions moins consomatrice que d'autres...
    Pouvez-vous m'aider?
    Il me semble que ton script passe son temps à appeler CheckVersion($g__LogSource) qui est une opération très lente relativement au reste et qui a toujours le même résultat.
    Appelle plutôt cette fonction une seule fois et garde le résultat dans une variable que tu réutilises dans ta boucle.

  3. #3
    Membre confirmé
    Profil pro
    Inscrit en
    Février 2005
    Messages
    85
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 85
    Par défaut
    J'ai supprimé la plupart des fonctions et j'ai fait la correction su checkversion et je suis passé pour 222 ligne à traité de 1s à 775ms.
    C'est toujours trop.
    Je pense que ce qui prend du temps c'est ça :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
     
     if ($l__TempLigne =~ /([^"]*)"([^"]*)"(.*)/){
                        ($g__StrBeforeQuotes,$g__StrQuoted,$g__StrAfterQuotes) = $l__TempLigne =~ /([^"]*)"([^"]*)"(.*)/;
                        if (defined($g__StrBeforeQuotes)){
                            #~ $g__StrBeforeQuotes contient un ou pls champs s‰par‰s par espace
                            @g__ListResult = (@g__ListResult, split (" ", $g__StrBeforeQuotes));
                        }
     
                        #~ La ligne de log commence par un champ avec guillemets
                        if (defined($g__StrQuoted)){
                            push (@g__ListResult, "\"$g__StrQuoted\"");
                        }
     
                        if (defined($g__StrAfterQuotes)){
                            $l__TempLigne = $g__StrAfterQuotes;
                            next;
                        }
                        else{
                            last;
                        }
                    }
                    else{
                        @g__ListResult = (@g__ListResult, split (" ", $l__TempLigne));
                        last;
                    }
                }
    C'est fait pour chaque ligne.

  4. #4
    Membre Expert
    Profil pro
    Inscrit en
    Octobre 2008
    Messages
    1 874
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Octobre 2008
    Messages : 1 874
    Par défaut
    J'ai supprimé la plupart des fonctions et j'ai fait la correction su checkversion et je suis passé pour 222 ligne à traité de 1s à 775ms.
    Il y a quelque chose qui cloche. Combien de fois au total est appelé cette fonction dans la version optimisée?

  5. #5
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 822
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 822
    Par défaut
    Il faut également garder à l'esprit que le souci peut venir de l'algorithme qui est peut être mal pensé. As tu également essayé de regarder s'il y avait déjà des modules sur le CPAN voulant faire ce que tu veux ? C'est le premier réflexe à avoir.

  6. #6
    Membre confirmé
    Profil pro
    Inscrit en
    Février 2005
    Messages
    85
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2005
    Messages : 85
    Par défaut
    L'objectif, c'était de faire vite.
    Je me suis trompé, c'est pas 750ms mais 75ms.
    Donc c'était bien l'appel à la fonction qui prenait du temps.
    J'ai récris la partie qui me paraissait lente et je suis descendu à 60ms, exactement ce que je voulais.
    Merci estofilo, c'était bien l'appel à la fonction qui prennais du temps.
    Donc sans appel à la fonction 7min pour traiter 1,5 millions de lignes au lieu de 2h.

    Encore MERCI.

  7. #7
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 822
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 822
    Par défaut
    N'oubliez pas le tag résolu.

    Merci !!

  8. #8
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    N'oublie pas non plus le profileur perl :
    Code bash : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    perl -d:DProf script.pl
    dprofpp -

Discussions similaires

  1. Réponses: 1
    Dernier message: 31/10/2006, 16h25
  2. Avantages des scripts Perl par rapport au script UNIX ?
    Par MonsieurAk dans le forum Langage
    Réponses: 4
    Dernier message: 23/01/2006, 14h34
  3. [sgbd]Optimisation des requetes Oracle/Perl
    Par linou dans le forum SGBD
    Réponses: 7
    Dernier message: 30/06/2005, 18h09
  4. Réponses: 13
    Dernier message: 01/10/2004, 14h03

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo