IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

parsing txt perl


Sujet :

Langage Perl

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Futur Membre du Club
    Femme Profil pro
    Inscrit en
    Septembre 2013
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations forums :
    Inscription : Septembre 2013
    Messages : 3
    Par défaut parsing txt perl
    Bonjour !
    J'ai pour but de récuperer les données d'un fichier texte pour pouvoir par la suite les inserer dans une base de données.
    Voici un exemple du type de fichier que je souhaite parser:

    ADD IPADDR:DPUMID=278,GATEWAYTYPE=DSG,IPVER=IPV4,IPV4IP1="10.10.10.21",IPV4GW1="10.10.10.17",IPV4MASK1="255.255.255.248",ETH1=Card4/Lan0,IPV4IP2="10.10.10.29",IPV4GW2="10.10.10.25",IPV4MASK2="255.255.255.248",ETH2=Card4/Lan1,ARPDETECT=ARP,SDPUDETECT=OPEN,ARPINTERV=3,ARPDRPRATE=80,RFC=OPEN,RFCHOLD=1,LFC=OPEN,LFCHOLD=1;
    ADD IPADDR:DPUMID=277,GATEWAYTYPE=DSG,IPVER=IPV4,IPV4IP1="10.10.10.20",IPV4GW1="10.10.10.17",IPV4MASK1="255.255.255.248",ETH1=Card4/Lan0,IPV4IP2="10.10.10.28",IPV4GW2="10.10.10.25",IPV4MASK2="255.255.255.248",ETH2=Card4/Lan1,ARPDETECT=ARP,SDPUDETECT=OPEN,ARPINTERV=3,ARPDRPRATE=80,RFC=OPEN,RFCHOLD=1,LFC=OPEN,LFCHOLD=1;


    ADD ONF:OOFCN="27",RFORMTYPE=UNCHANGE,NFORMTYPE=NUM_UNLMT,OUTCHGTYPE=ADVANCED,RGLEXP="(sip:|tel:)(\\+421)([0-9]*)\;npdi\;rn=(\\+421BB00)(@sip.osk.com\;user=phone){0,1}",RPLEXP="sip:\\4\\3@sip.osk.com\;user=phone",PRIVACYFLAG=N,RESERVED1=0,RESERVED2=0,RESERVED3=0,RESERVED4=0;
    ADD ONF:OOFCN="9",RFORMTYPE=UNCHANGE,NFORMTYPE=LOCAL_PRF,OUTCHGTYPE=ADVANCED,RGLEXP="(tel:)([0-9*a-eA-E]+)",RPLEXP="\\1\\2\;phone-context=+32",PRIVACYFLAG=N,RESERVED1=0,RESERVED2=0,RESERVED3=0,RESERVED4=0;
    le format de chaque ligne est le suivant :

    Action<Space>Object: parameter1 = value1,parameter2 = value2,parameter3 = value3;

    les parametres sont séparés par des "," et chaue ligne de termine par ";"

    on peut trouver des ";" ou ":" ou "," dans une valeur value,mais dans ce cas là , elle sera rangé dans des " ", comme dans la 3ieme ligne.

    des fois on trouve des valeur avec les " " , et des fois non.



    Le probleme c'est que je suis débutante en perl , et je ne sais pas écrire la chaine de recherche correspondante ..

    Voila, si quelqu'un à une idée.

    merci d'avance

  2. #2
    Membre émérite Avatar de messinese
    Homme Profil pro
    IT Security Consultant
    Inscrit en
    Septembre 2007
    Messages
    429
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : IT Security Consultant
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Septembre 2007
    Messages : 429
    Par défaut
    Salut,

    tu peux détailler stp car la on ne sais pas justement ce que tu veux garder ou ne pas garder :/ , cela dis ça parait vraiment pas compliqué.

  3. #3
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Billets dans le blog
    1
    Par défaut
    Le texte à parser est complexe, je te conseille vraiment d'utiliser un module spécialisé dans le CSV, comme Text::CSV

  4. #4
    Membre chevronné Avatar de cmcmc
    Homme Profil pro
    Inscrit en
    Juillet 2013
    Messages
    316
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Juillet 2013
    Messages : 316
    Par défaut
    Bonjour, tu devrais pouvoir adapter le script suivant à tes besoins :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    # parse.pl
    use strict;
    use warnings;
    use utf8;
     
    use Getopt::Long;
     
    my $debug;
    my $strip_quotes;
    GetOptions("d" => \$debug, "s" => \$strip_quotes) 
        or die "usage : $0 [-d] [-s] <files>\n", "   -d: debug\n", "   -s: strip quotes\n";
     
    my $action_re = qr/[A-Z]+/;
    my $object_re = qr/[A-Z0-9]+/;
    my $param_re  = qr/[A-Z0-9]+/;
    my $value_re  = qr/[^;:,"]+|"[^"]*"/;
     
    sub parse {
        my @objs;
        while (my $line = <>) {
    	$line =~ s/[\r\n]*$//g; # safer chomp on Windows when reading ARGV
    	my %o;
    	if (my ($action) = ($line =~ m/\G($action_re)[ ]/gc)) {
    	    warn "  action: $action" if $debug;
     
    	    while (my ($object) = ($line =~ m/\G($object_re):/gc)) { 
    		warn "  objet: $1" if $debug;
    		$o{$object} = {};
     
    		while ($line =~ m/\G($param_re)=($value_re)[,;]/gc) {
    		    my ($param, $value) = ($1, $2);
    		    $value = substr($value, 1, length($value)-2) if $strip_quotes and $value =~ m/^".*"$/;
    		    warn "    $param: $value" if $debug;
    		    $o{$object}{$param} = $value;
    		}
    	    }
    	}
    	my $rest = substr($line, pos($line));
    	die q{caractères excédentaires à partir de la position }, pos $line, ": '$rest'"
    	    if $rest;
    	push @objs, \%o
        }
        return \@objs;
    }
     
    sub utilise {
        my ($aref) = @_;
        use YAML;
        print Dump($aref);
    }
     
    utilise(parse);
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    Taisha:~/tttmp/parsing_txt_perl $ perl parse.pl -h
    Unknown option: h
    usage : parse.pl [-d] [-s] <files>
       -d: debug
       -s: strip quotes
    Taisha:~/tttmp/parsing_txt_perl $
    L'option -d devrait te permettre de voir ce qui se passe :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    Taisha:~/tttmp/parsing_txt_perl $ perl parse.pl -d filein
      action: ADD at parse.pl line 23, <> line 1.
      objet: IPADDR at parse.pl line 26, <> line 1.
        DPUMID: 278 at parse.pl line 32, <> line 1.
        GATEWAYTYPE: DSG at parse.pl line 32, <> line 1.
        IPVER: IPV4 at parse.pl line 32, <> line 1.
        IPV4IP1: "10.10.10.21" at parse.pl line 32, <> line 1.
        IPV4GW1: "10.10.10.17" at parse.pl line 32, <> line 1.
        IPV4MASK1: "255.255.255.248" at parse.pl line 32, <> line 1.
        ETH1: Card4/Lan0 at parse.pl line 32, <> line 1.
        IPV4IP2: "10.10.10.29" at parse.pl line 32, <> line 1.
        ...
    Au final, avec un simple Dump YAML, ça donne ça :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    Taisha:~/tttmp/parsing_txt_perl $ perl parse.pl filein
    ---
    - IPADDR:
        ARPDETECT: ARP
        ARPDRPRATE: 80
        ARPINTERV: 3
        DPUMID: 278
        ETH1: Card4/Lan0
        ETH2: Card4/Lan1
        GATEWAYTYPE: DSG
        IPV4GW1: '"10.10.10.17"'
        IPV4GW2: '"10.10.10.25"'
        IPV4IP1: '"10.10.10.21"'
        IPV4IP2: '"10.10.10.29"'
        IPV4MASK1: '"255.255.255.248"'
        IPV4MASK2: '"255.255.255.248"'
        IPVER: IPV4
        LFC: OPEN
        LFCHOLD: 1
        RFC: OPEN
        RFCHOLD: 1
        SDPUDETECT: OPEN
    - IPADDR:
        ARPDETECT: ARP
        ARPDRPRATE: 80
        ARPINTERV: 3
        DPUMID: 277
        ETH1: Card4/Lan0
        ETH2: Card4/Lan1
        GATEWAYTYPE: DSG
        IPV4GW1: '"10.10.10.17"'
        IPV4GW2: '"10.10.10.25"'
        IPV4IP1: '"10.10.10.20"'
        IPV4IP2: '"10.10.10.28"'
        IPV4MASK1: '"255.255.255.248"'
        IPV4MASK2: '"255.255.255.248"'
        IPVER: IPV4
        LFC: OPEN
        LFCHOLD: 1
        RFC: OPEN
        RFCHOLD: 1
        SDPUDETECT: OPEN
    - ONF:
        NFORMTYPE: NUM_UNLMT
        OOFCN: '"27"'
        OUTCHGTYPE: ADVANCED
        PRIVACYFLAG: N
        RESERVED1: 0
        RESERVED2: 0
        RESERVED3: 0
        RESERVED4: 0
        RFORMTYPE: UNCHANGE
        RGLEXP: '"(sip:|tel:)(\\+421)([0-9]*)\;npdi\;rn=(\\+421BB00)(@sip.osk.com\;user=phone){0,1}"'
        RPLEXP: '"sip:\\4\\3@sip.osk.com\;user=phone"'
    - ONF:
        NFORMTYPE: LOCAL_PRF
        OOFCN: '"9"'
        OUTCHGTYPE: ADVANCED
        PRIVACYFLAG: N
        RESERVED1: 0
        RESERVED2: 0
        RESERVED3: 0
        RESERVED4: 0
        RFORMTYPE: UNCHANGE
        RGLEXP: '"(tel:)([0-9*a-eA-E]+)"'
        RPLEXP: '"\\1\\2\;phone-context=+32"'
    Taisha:~/tttmp/parsing_txt_perl $
    il ne reste plus qu'à transférer les données vers la BD...

  5. #5
    Membre chevronné Avatar de cmcmc
    Homme Profil pro
    Inscrit en
    Juillet 2013
    Messages
    316
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Juillet 2013
    Messages : 316
    Par défaut
    En fait, avec Perl 5.18, on peut même le faire avec une regexp étendue :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    # parse2.pl
    use 5.018; # pour l'utilisation de (?{...}) dans les regexp.
    use strict;
    use warnings;
    use utf8;
     
    use Getopt::Long;
     
    my $debug;
    my $strip_quotes;
    GetOptions("d" => \$debug, "s" => \$strip_quotes) 
        or die "usage : $0 [-d] [-s] <files>\n", "   -d: debug\n", "   -s: strip quotes\n";
     
    my $action_re = qr/[A-Z]+/;
    my $object_re = qr/[A-Z0-9]+/;
    my $param_re  = qr/[A-Z0-9]+/;
    my $value_re  = qr/[^;:,\042]+|\042[^\042]*\042/; # \042 est le code de ", utilisé ici pour assister un peu les coloriseurs de code...
     
    sub parse {
        my @objs; # liste des objets lus
        my ($object, $objname, $param, $value);
        while (my $line = <>) {
    	$line =~ m{^($action_re)                  # l'action
                       (?{ warn "  action: $^N" if $debug }) # debug
                       [ ]                            # séparateur
                       ($object_re)                   # nom de l'objet
                       (?{
                           $objname = $^N;            # capture du nom dans $objname
                           warn "  objet: $objname" if $debug; # debug
                         })          
                       [:]                            # séparateur
                       (?{ $object = {} })            # création d'un objet vide
                       (                              # boucle sur les couples param/value
                           ($param_re)                    # paramètre
                           (?{ $param = $^N })            # capture du paramètre dans $param
                           [=]                            # séparateur
                           ($value_re)                    # valeur
                           (?{ $value = $^N })            # capture de la valeur dans $value
                           (?:
                                ,                         # un ',' (on le consomme)
                                |                         # ... ou bien ...
                                (?=;)                     # un ';' (on ne le consomme pas)
                           )
                           (?{
                               warn "    $param: $value" if $debug;  # debug
                               $object->{ $param} = $value # enregistrement de param/valeur dans l'objet courant
                             })
                       )*                             # fin de la boucle sur les couples param/value
                       [;]                            # on est bien à la fin de l'objet
                       [\r\n]*$                       # on est bien à la fin de la ligne
                       (?{ push @objs, {$objname => $object} }) # on peut donc enregistrer notre objet dans la liste.
                       }x
            or die "ligne non conforme";
    	if ($strip_quotes) {
    	    $_ =~ m/^".*"$/ and $_ = substr($_, 1, length($_)-2) for values %$object;
    	}
        }
        return \@objs;
    }
     
    sub utilise {
        my ($aref) = @_;
        use YAML;
        print Dump($aref);
    }
     
    utilise(parse);
    On obtient le même résultat qu'avec l'autre version :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    Taisha:~/tttmp/parsing_txt_perl $ perl parse.pl filein > res
    Taisha:~/tttmp/parsing_txt_perl $ perl parse2.pl filein | diff - res
    Taisha:~/tttmp/parsing_txt_perl $ perl parse.pl -s filein > res-s
    Taisha:~/tttmp/parsing_txt_perl $ perl parse2.pl -s filein | diff - res-s
    Taisha:~/tttmp/parsing_txt_perl $
    à savoir
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    Taisha:~/tttmp/parsing_txt_perl $ perl parse2.pl filein
    ---
    - IPADDR:
        ARPDETECT: ARP
        ARPDRPRATE: 80
        ARPINTERV: 3
        DPUMID: 278
        ETH1: Card4/Lan0
        ETH2: Card4/Lan1
        GATEWAYTYPE: DSG
        IPV4GW1: '"10.10.10.17"'
        IPV4GW2: '"10.10.10.25"'
        IPV4IP1: '"10.10.10.21"'
        IPV4IP2: '"10.10.10.29"'
        IPV4MASK1: '"255.255.255.248"'
        IPV4MASK2: '"255.255.255.248"'
        IPVER: IPV4
        LFC: OPEN
        LFCHOLD: 1
        RFC: OPEN
        RFCHOLD: 1
        SDPUDETECT: OPEN
    - IPADDR:
        ARPDETECT: ARP
        ARPDRPRATE: 80
        ARPINTERV: 3
        DPUMID: 277
        ETH1: Card4/Lan0
        ETH2: Card4/Lan1
        GATEWAYTYPE: DSG
        IPV4GW1: '"10.10.10.17"'
        IPV4GW2: '"10.10.10.25"'
        IPV4IP1: '"10.10.10.20"'
        IPV4IP2: '"10.10.10.28"'
        IPV4MASK1: '"255.255.255.248"'
        IPV4MASK2: '"255.255.255.248"'
        IPVER: IPV4
        LFC: OPEN
        LFCHOLD: 1
        RFC: OPEN
        RFCHOLD: 1
        SDPUDETECT: OPEN
    - ONF:
        NFORMTYPE: NUM_UNLMT
        OOFCN: '"27"'
        OUTCHGTYPE: ADVANCED
        PRIVACYFLAG: N
        RESERVED1: 0
        RESERVED2: 0
        RESERVED3: 0
        RESERVED4: 0
        RFORMTYPE: UNCHANGE
        RGLEXP: '"(sip:|tel:)(\\+421)([0-9]*)\;npdi\;rn=(\\+421BB00)(@sip.osk.com\;user=phone){0,1}"'
        RPLEXP: '"sip:\\4\\3@sip.osk.com\;user=phone"'
    - ONF:
        NFORMTYPE: LOCAL_PRF
        OOFCN: '"9"'
        OUTCHGTYPE: ADVANCED
        PRIVACYFLAG: N
        RESERVED1: 0
        RESERVED2: 0
        RESERVED3: 0
        RESERVED4: 0
        RFORMTYPE: UNCHANGE
        RGLEXP: '"(tel:)([0-9*a-eA-E]+)"'
        RPLEXP: '"\\1\\2\;phone-context=+32"'
    Taisha:~/tttmp/parsing_txt_perl $

  6. #6
    Expert confirmé Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 387
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 387
    Par défaut
    Bonjour,
    Une simple regex peut aussi le faire (au moins sur le fichier exemple):
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    $ perl -pe 's/,([[:alnum:]]*)=/\n\t\1: /g;s/:([[:alnum:]]*)=/\n\t\1: /;s/;$//' filein
    ADD IPADDR
            DPUMID: 278
            GATEWAYTYPE: DSG
            IPVER: IPV4
            IPV4IP1: "10.10.10.21"
            IPV4GW1: "10.10.10.17"
            IPV4MASK1: "255.255.255.248"
            ETH1: Card4/Lan0
            IPV4IP2: "10.10.10.29"
            IPV4GW2: "10.10.10.25"
            IPV4MASK2: "255.255.255.248"
            ETH2: Card4/Lan1
            ARPDETECT: ARP
            SDPUDETECT: OPEN
            ARPINTERV: 3
            ARPDRPRATE: 80
            RFC: OPEN
            RFCHOLD: 1
            LFC: OPEN
            LFCHOLD: 1
    ADD IPADDR
            DPUMID: 277
            GATEWAYTYPE: DSG
            IPVER: IPV4
            IPV4IP1: "10.10.10.20"
            IPV4GW1: "10.10.10.17"
            IPV4MASK1: "255.255.255.248"
            ETH1: Card4/Lan0
            IPV4IP2: "10.10.10.28"
            IPV4GW2: "10.10.10.25"
            IPV4MASK2: "255.255.255.248"
            ETH2: Card4/Lan1
            ARPDETECT: ARP
            SDPUDETECT: OPEN
            ARPINTERV: 3
            ARPDRPRATE: 80
            RFC: OPEN
            RFCHOLD: 1
            LFC: OPEN
            LFCHOLD: 1
     
     
    ADD ONF
            OOFCN: "27"
            RFORMTYPE: UNCHANGE
            NFORMTYPE: NUM_UNLMT
            OUTCHGTYPE: ADVANCED
            RGLEXP: "(sip:|tel:)(\\+421)([0-9]*)\;npdi\;rn=(\\+421BB00)(@sip.osk.com\;user=phone){0,1}"
            RPLEXP: "sip:\\4\\3@sip.osk.com\;user=phone"
            PRIVACYFLAG: N
            RESERVED1: 0
            RESERVED2: 0
            RESERVED3: 0
            RESERVED4: 0
    ADD ONF
            OOFCN: "9"
            RFORMTYPE: UNCHANGE
            NFORMTYPE: LOCAL_PRF
            OUTCHGTYPE: ADVANCED
            RGLEXP: "(tel:,)([0-9,*a-eA-E]+)"
            RPLEXP: "\\1\\2\;phone-context=+32"
            PRIVACYFLAG: N
            RESERVED1: 0
            RESERVED2: 0
            RESERVED3: 0
            RESERVED4: 0

Discussions similaires

  1. [PERL]: Help script traitement fichier txt tabulaire
    Par Piccolupo13 dans le forum Langage
    Réponses: 2
    Dernier message: 21/08/2007, 21h37
  2. Parsing d'un fichier en perl
    Par snipper dans le forum Langage
    Réponses: 2
    Dernier message: 08/02/2007, 01h34
  3. Réponses: 1
    Dernier message: 05/12/2006, 18h47
  4. [langage]parcours fichier txt en perl sous windows
    Par stef74 dans le forum Langage
    Réponses: 12
    Dernier message: 23/06/2005, 17h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo