IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Parser un fichier HTML


Sujet :

Langage Perl

  1. #1
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    16
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 16
    Par défaut Parser un fichier HTML
    Bonjour ,

    J'essaie de parser un fichier HTML , pour y extraire des infos : Problème je ne sais comment m'y prendre car mes connaissances étant limité sur du HTML ,Perl , ....

    Puisque j'apprends également du perl , alors j'ai pensé que les Regex , pourrait m'aider .

    Ce que je veux faire exactement c'est trouver une expression réguliere qui me permet de 'matcher' les lignes d'un tableau , et ensuite pouvoir extraire les infos contenu dans les colonnes .

    Voici un exemple du code HTML (correspondant à une ligne de tabeau)
    (juste préciser que j'ai une cinquantaine de ligne dans ce genre ...)

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    <tr>
    <td>1</td>
    <td>
    <a href="#objdef-id3206X4432">mx1.messagelabs.com</a><br>
    </td>
    <td>
    <a href="#objdef-id1856X4432">MX_servers</a><br>
    </td>
    <td>smtp<br>
    </td>
    <td>Accept</td>
    <td><br>
    </td>
    </tr>
    une expression régulière pourrait etre celle ci : le problème c'est qu'elle correspond à plusieurs lignes dans le fichier HTML , alors je cherche une autre solution.. et aussi comment je peux récuperer les données dans les colonnes de cette ligne ?

    [
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    #!/usr/bin/perl
    use strict;
    use warnings;
     
     
    # Sous-routine permettant d'entrée le fichier en CLI
    sub obtient_ligne{
      #demande , lit , "chompe" et renvoie une ligne d'entrée 
      print $_[0];
      chomp(my $ligne = <STDIN>);
      $ligne ;
    }
     
    my $fichierHTML = &obtient_ligne (" votre fichier HTML ?");
      open IN ,$fichierHTML 
      or die "Impossible d'ouvrir '$fichierHTML ' en entrée : $!";
     
     
     
      while (<>) {
      if (/<tr><td>[0-9]<\/td><td>[a_zA-Z0-9_]<br><\/td><td>[a_zA-Z0-9_]<br><\/td><td><a href=\"#objdef-id3C20EEB5\">[a_zA-Z0-9_]<\/a><br><\/td><td>Accept¦Deny<\/td><td><br><\/td>[a_zA-Z0-9_]<\/tr>/) {
        print ;
      }
    }
    merci ...

  2. #2
    Membre Expert Avatar de jabbounet
    Homme Profil pro
    Consultant informatique
    Inscrit en
    Juin 2009
    Messages
    1 909
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49

    Informations professionnelles :
    Activité : Consultant informatique

    Informations forums :
    Inscription : Juin 2009
    Messages : 1 909

  3. #3
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    Il existe même directement des parser HTML : http://search.cpan.org/search?query=...arser&mode=all

  4. #4
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    16
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 16
    Par défaut
    OK ,

    j'ai regardé ...ça m'a pas l'air très simple ...
    connaissez vous ou je peux trouver les tutos en francais ? avec plus d'exemple ?
    j'ai jamais fait du parsing , alors sans exemple je ne vois pas comment je pourrais commencer , surtout que le temps me fait défaut ..

    merci

  5. #5
    Membre Expert Avatar de jabbounet
    Homme Profil pro
    Consultant informatique
    Inscrit en
    Juin 2009
    Messages
    1 909
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49

    Informations professionnelles :
    Activité : Consultant informatique

    Informations forums :
    Inscription : Juin 2009
    Messages : 1 909
    Par défaut
    Citation Envoyé par McCrazy Voir le message
    OK ,

    j'ai regardé ...ça m'a pas l'air très simple ...
    connaissez vous ou je peux trouver les tutos en francais ? avec plus d'exemple ?
    j'ai jamais fait du parsing , alors sans exemple je ne vois pas comment je pourrais commencer , surtout que le temps me fait défaut ..

    merci
    tu as ça dans la section tutoriel du site.
    http://djibril.developpez.com/tutoriels/perl/perl-xml/

  6. #6
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    16
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 16
    Par défaut
    Bonjour ,

    merci pour le tuto..
    j'ai réussi à extraire ce que je voulais grace à HTML::Parser , mais j'ai juste un problème ,

    pour mieux manipuler les données extraites , je voudrais les stocker dans un tableau , mais là ..j'ai essayé de le faire dans la sous routine sub text , mais mon tableau @data , ne me donne rien ... pourquoi ??????

    voici le code
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    #!/usr/bin/perl
     
    use strict;
    use HTML::Parser;
    #package MyParser;
    #use base qw(HTML::Parser);
     
     #my $p = new HTML::Parser;
     #   $p->parse_file("backup.html"); 
     
     
    my $parser = HTML::Parser->new();
    # définition des evenements
    $parser->handler( text  => \&text,  "dtext" );
    $parser->handler( start => \&start, "tagname,attr" );
    $parser->handler( end   => \&end,   "tagname" );
     
    my $count_td;
    my $count_a;
        my @data;
     
        sub start {
            my ($tag, $attr,$attrseq, $origtext) = @_;
           $count_td++;
                if( $tag eq 'td'){
                 #print "ne rien faire \n";
                }
                elsif ($tag eq 'a'and $attr->{href} eq '/[a_zA-Z0-9_]/' ){
                $count_a++
                }
        }
     
     
        sub end {
            my ($tag) = @_;
           $count_td--;
           $count_a--;
                if( $tag eq 'td' and $count_td){
                #print " td \n";
                }
                elsif ($tag eq 'a' and $count_a){
                #print "a \n";
     
                }
        }
     
     
        sub text {
            my ($text) = @_;
            if ($count_td){
            push @data, $text ;
            print " $text  \n";
            }
             elsif ($count_a){
            push (@data, $text);
            print" $text \n";
            }
     
            print @data;
            return @data;
        }
     
    print @data ;
    # package main;
     
    my $html = <<EOHTML;
        #<html>
    <tr>
    <td>1</td>
    <td>
    <a href="#objdef-id3206X4432">mx1.messagelabs.com</a><br>
    </td>
    <td>
    <a href="#objdef-id1856X4432">MX_servers</a><br>
    </td>
    <td>smtp<br>
    </td>
    <td>Accept</td>
    <td><br>
    </td>
    </tr>
    <tr>
    <td>2</td>
    <td>
    <a href="#objdef-id1856X4432">MX_servers</a><br>
    </td>
    <td>Any<br>
    </td>
    <td>smtp<br>
    </td>
    <td>Accept</td>
    <td><br>
    </td>
    </tr>
    <tr>
    <td>3</td>
    <td>
    <a href="#objdef-id1856X4432">MX_servers</a><br>
    </td>
    <td>
    <a href="#objdef-id1854X4432">Domain_controllers</a><br>
    </td>
    <td>
    <a href="#objdef-id4885X4432">Tcp 139</a><br>
    </td>
    <td>Accept</td>
    <td><br>
    </td>
    </tr>
       #</html>
    EOHTML
     
     
    #my $parser = MyParser->new;
     
     
        $parser->parse( $html );

  7. #7
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    Deux remarques :
    Dans le handler text, il est inutile de retourner @data (puisque toute valeur de retour d'un handler est ignoré par le parser).
    Ensuite, pour corriger ton bug, il faut afficher @data APRES avoir appelé le parser, donc après la ligne :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $parser->parse( $html );
    Et là, tu obtiens effectivement un résultat.

  8. #8
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    16
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 16
    Par défaut
    Slt ,

    Merci bcp pour tes remarques ...surtout que ce genre d'infos je ne le trouve nulle part dans les tutos ..

    encore malheureusement quelques questions

    --est-ce que c'est nécessaire d'utiliser deux compteurs , pour passer les transitions comme je le fais ? (j'ai essayé de supprimer le deuxieme: $count_a)
    ducoup en exécutant je boucle 4 fois sur le même résultat ( affichage 4 fois le même résultat! )..pourquoi ?

    (c'est vraiment très bizzare la programmation car , avant de m'assurer que ce je dis est vrai , j'ai été reéxécuter mon code , et surprise . plus de boucle ! malgré que j'ai supprimé le $count_a ..)

    -- et pour tester si le parsing marche sur l'ensemble du fichier , j'ai essayé de rajouter l'entête du fichier HTML : ça m'affiche des éléments dont j'en ai pas besoin , et quand je regarde , je constate que c'est parceque certains de ces éléments sont encadré par la balise td (contenant des attributs ): alors comment spécifier dans la sous-routine start que je voudrais juste traité les éléments de balise td , (sans attribut )! bref comment suprimer l'affichage de toute l'entête ?

    --- un exemple

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    #!/usr/bin/perl
     
    use strict;
    use HTML::Parser;
    #package MyParser;
    #use base qw(HTML::Parser);
     
     #my $p = new HTML::Parser;
     #   $p->parse_file("backup.html"); 
     
     
    my $parser = HTML::Parser->new();
    # définition des evenements
    $parser->handler( text  => \&text,  "dtext" );
    $parser->handler( start => \&start, "tagname,attr" );
    $parser->handler( end   => \&end,   "tagname" );
     
    my $count_td;
    my $count_a;
        my @data;
     
        sub start {
            my ($tag, $attr,$attrseq, $origtext) = @_;
           $count_td++;
                if( $tag eq 'td'){
                 #print "ne rien faire \n";
                }
                #elsif ($tag eq 'a'and $attr->{href} eq '/^objdef-id[0-9]/' ){
                #$count_a++
                #}
        }
     
     
        sub end {
            my ($tag) = @_;
           $count_td--;
           #$count_a--;
                if( $tag eq 'td' and $count_td){
                #print " td \n";
                }
                #elsif ($tag eq 'a' and $count_a){
                #print "a \n";
     
                #}
        }
     
     
        sub text {
            my ($text) = @_;
            if ($count_td){
            push @data, $text ;
            #print " $text  \n";
            }
             #elsif ($count_a){
            #push (@data, $text);
            #print" $text \n";
            #}
     
     
        }
     
    #print @data ;
    # package main;
     
    my $html = <<EOHTML;
        #<html>
    <html xmlns:fwbuilder="http://www.fwbuilder.org/1.0/">
    <head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"></head>
    <body bgcolor="#ffffff" link="#0000ee" vlink="#551a8b" alinlk="#0000ee">
    <h2>Firewall policy definition</h2>
    <a href="#_NETWORKS">Networks</a> | <a href="#_ADDRRANGES">Address Ranges</a> | <a href="#_HOSTS">Hosts</a> | <a href="#_GROUPS"> Object Groups</a>  | <a href="#_SERVICES">Services</a>  |<a href="#_SERVGROUPS"> Service Groups</a>
     
    <br><br><table border="1" cellspacing="0" width="%95"><tr><td><table border="0" cellspacing="2" width="%100">
    <tr><th colspan="2" bgcolor="#CCCCCC">Firewall</th></tr>
    <tr><th colspan="2"></th></tr>
    <tr>
    <th align="left" width="20%">Name:</th>
    <td align="left">FW1</td>
    </tr>
    <tr>
    <th align="left" width="20%">Platform:</th>
    <td align="left">pix</td>
    </tr>
    <tr>
    <th align="left" width="20%">Host OS:</th>
    <td align="left">pix_os</td>
    </tr>
    <tr>
    <th align="left" width="20%">Comment:</th>
    <td align="left"></td>
    </tr>
    <tr><th colspan="2"></th></tr>
    <tr><th colspan="2"></th></tr>
    <tr><td colspan="2">
    <br><table border="1" width="95%" cellspacing="0">
    <caption align="left"><b><font size="+1">NAT rules</font></b></caption>
    <tr>
    <th width="20" bgcolor="#009900"><font color="#ffffff">Num</font></th>
    <th bgcolor="#009900"><font color="#ffffff">OSrc</font></th>
    <th bgcolor="#009900"><font color="#ffffff">ODst</font></th>
    <th bgcolor="#009900"><font color="#ffffff">OSrv</font></th>
    <th bgcolor="#009900"><font color="#ffffff">TSrc</font></th>
    <th bgcolor="#009900"><font color="#ffffff">TDst</font></th>
    <th bgcolor="#009900"><font color="#ffffff">TSrv</font></th>
    </tr>
    </table>
    <br><table border="1" width="95%" cellspacing="0">
    <caption align="left"><b><font size="+1">Policy Rules</font></b></caption>
    <tr>
    <th width="20" bgcolor="#009900"><font color="#ffffff">Num</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Src</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Dst</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Srv</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Action</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Comment</font></th>
    </tr>
    <tr>
    <td>0</td>
    <td>Any<br>
    </td>
    <td>Any<br>
    </td>
    <td>
    <a href="#objdef-id3C20EEB5">any ICMP</a><br>
    </td>
    <td>Accept</td>
    <td><br>
    </td>
    </tr>
       #</html>
    EOHTML
     
     
    $parser->parse( $html );
    print @data;
    désolé pour la longueur de la requête ..

  9. #9
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    Je n'ai pas lu tout ton programme, ni testé, mais apriori, je dirais que si tu souhaite stocker les colonnes de chaque ligne, il faut que tu mémorises le fait que tu entres dans une nouvelle ligne (tag TR), et quand tu est dans une cellule (tag TD début et fin). Je ne vois pas l'intérêt de vérifier le tag A.

  10. #10
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    16
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 16
    Par défaut
    J'ai fais la même remarque que toi , mais c'est parceque j'essaie aussi d'éviter que les informations contenues dans l'entête du fichier html s'affiche , (étant donné qu'elles sont aussi contenues dans les balises tr , et de toutes les facons , ca change pas grand chose , car en utilisant que la balise td , ces infos s'affiche aussi ) d'ou ma question du précédente :

    comment spécifier dans la sous-routine start que je voudrais juste traité les éléments de balise td , (sans attribut )! bref comment suprimer l'affichage de toute l'entête ?

    merci

  11. #11
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    Citation Envoyé par McCrazy Voir le message
    comment spécifier dans la sous-routine start que je voudrais juste traité les éléments de balise td , (sans attribut )! bref comment suprimer l'affichage de toute l'entête ?
    Je suis pas sur de bien comprendre : tu parles de quel entête ?

  12. #12
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    16
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 16
    Par défaut
    tout ceci :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    <html xmlns:fwbuilder="http://www.fwbuilder.org/1.0/">
    <head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"></head>
    <body bgcolor="#ffffff" link="#0000ee" vlink="#551a8b" alinlk="#0000ee">
    <h2>Firewall policy definition</h2>
    <a href="#_NETWORKS">Networks</a> | <a href="#_ADDRRANGES">Address Ranges</a> | <a href="#_HOSTS">Hosts</a> | <a href="#_GROUPS"> Object Groups</a>  | <a href="#_SERVICES">Services</a>  |<a href="#_SERVGROUPS"> Service Groups</a>
     
    <br><br><table border="1" cellspacing="0" width="%95"><tr><td><table border="0" cellspacing="2" width="%100">
    <tr><th colspan="2" bgcolor="#CCCCCC">Firewall</th></tr>
    <tr><th colspan="2"></th></tr>
    <tr>
    <th align="left" width="20%">Name:</th>
    <td align="left">FW1</td>
    </tr>
    <tr>
    <th align="left" width="20%">Platform:</th>
    <td align="left">pix</td>
    </tr>
    <tr>
    <th align="left" width="20%">Host OS:</th>
    <td align="left">pix_os</td>
    </tr>
    <tr>
    <th align="left" width="20%">Comment:</th>
    <td align="left"></td>
    </tr>
    <tr><th colspan="2"></th></tr>
    <tr><th colspan="2"></th></tr>
    <tr><td colspan="2">
    <br><table border="1" width="95%" cellspacing="0">
    <caption align="left"><b><font size="+1">NAT rules</font></b></caption>
    <tr>
    <th width="20" bgcolor="#009900"><font color="#ffffff">Num</font></th>
    <th bgcolor="#009900"><font color="#ffffff">OSrc</font></th>
    <th bgcolor="#009900"><font color="#ffffff">ODst</font></th>
    <th bgcolor="#009900"><font color="#ffffff">OSrv</font></th>
    <th bgcolor="#009900"><font color="#ffffff">TSrc</font></th>
    <th bgcolor="#009900"><font color="#ffffff">TDst</font></th>
    <th bgcolor="#009900"><font color="#ffffff">TSrv</font></th>
    </tr>
    </table>
    <br><table border="1" width="95%" cellspacing="0">
    <caption align="left"><b><font size="+1">Policy Rules</font></b></caption>
    <tr>
    <th width="20" bgcolor="#009900"><font color="#ffffff">Num</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Src</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Dst</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Srv</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Action</font></th>
    <th bgcolor="#009900"><font color="#ffffff">Comment</font></th>
    </tr>
    et je voudrais que mon parsing commence par là :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    <tr>
    <td>0</td>
    <td>Any<br>
    </td>
    <td>Any<br>
    </td>
    <td>
    <a href="#objdef-id3C20EEB5">any ICMP</a><br>
    </td>
    <td>Accept</td>
    <td><br>
    </td>
    </tr>
    ...

  13. #13
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    C'est pas évident de trouver un critère de sélection pour les balises TD (attribut vide ne suffit pas, car elle n'élimine pas la première cellule du tableau).
    Si tu peux te servir du nombre de ligne d'entête, tu peux compter les balises TR dans une variable, et ajouter un test sur cette valeur dans la sélection de la balise TD.

  14. #14
    Membre chevronné Avatar de iblis
    Inscrit en
    Janvier 2007
    Messages
    510
    Détails du profil
    Informations personnelles :
    Âge : 58

    Informations forums :
    Inscription : Janvier 2007
    Messages : 510
    Par défaut
    Bonjour. Tu peux aussi utiliser HTML::TreeBuilder::XPath (une extension de HTML::TreeBuilder, elle même bâtie sur HMTL::Parser). Ensuite tu fais ce que tu veux avec le HTML::Element.

    L'approche avec arbres et chemins plutôt que flux et tokens te simplifie un peu la vie ici. D'après ton exemple, un bon critère de sélection serait : sélectionner les éléments tr qui ont un enfant td contenant juste un chiffre (les '0', '1' des différentes configs).

    Voilà ce que ça donne :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    use HTML::TreeBuilder::XPath;
    my $tree = HTML::TreeBuilder::XPath->new();
    $tree->parse( $html );
     
    my @elements = map { $_->parent } 
      @{ $tree->findnodes('//tr/td[.=~ /^\s+\d+\s+$/]') };
     
    my @results;
    for my $element (@elements) {
      push @results, [ map { $_->as_text} $element->find('td') ]
    On trouve les nodes td dont le texte matche une série de chiffres (à tout hasard avec des espaces autour), on sélectionne les parents (= on remonte au tr du dessus) et pour chacun des éléments HTML ainsi récupéré on extrait le contenu de chacune des balises td, qu'on pousse dans un tableau.

    En fin de compte ça donne ça :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
     DB<1> x @results
    0  ARRAY(0x974fa8)
       0  ' 0 '
       1  ' Any '
       2  ' Any '
       3  'any ICMP '
       4  ' Accept '
       5  ' '
    1  ARRAY(0x9e8c04)
       0  ' 1 '
       1  'mx1.messagelabs.com '
       2  'MX_servers '
       3  ' smtp '
       4  ' Accept '
       5  ' '
    Après chaucun son truc mais c'était histoire de te montrer une autre technique. Avec les tokens j'aurais utilisé le même critère (tr qui ont un td avec juste un chiffre).

  15. #15
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    16
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 16
    Par défaut
    Merci bcp Iblis ,

    je regarde ça plus en détail puis je te dis ...

  16. #16
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    16
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 16
    Par défaut
    Bonjour ,

    j'ai essayé avec TreeBuilder , mais là je n'arrive pas à printer les resultats comme toi ..pourquoi ? merci

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    #!/usr/bin/perl
    use strict;
    #use HTML::Parser;
    use HTML::TreeBuilder::XPath;
     
    my $tree = HTML::TreeBuilder::XPath->new();
     
    my @elements = map { $_->parent } 
      @{ $tree->findnodes('//tr/td[.=~ /^\s+\d+\s+$/]') };
     
    my @results;
    for my $element (@elements) {
      push @results, [ map { $_->as_text} $element->find('td') ]
      }
     
    my $html = <<EOHTML;
        #<html>
    <tr>
    <td>0</td>
    <td>Any<br>
    </td>
    <td>Any<br>
    </td>
    <td>
    <a href="#objdef-id3C20EEB5">any ICMP</a><br>
    </td>
    <td>Accept</td>
    <td><br>
    </td>
    </tr>
    <tr>
    <td>1</td>
    <td>
    <a href="#objdef-id3206X4432">mx1.messagelabs.com</a><br>
    </td>
    <td>
    <a href="#objdef-id1856X4432">MX_servers</a><br>
    </td>
    <td>smtp<br>
    </td>
    <td>Accept</td>
    <td><br>
    </td>
    </tr>
       #</html>
    EOHTML
     
    $tree->parse( $html );
    print @results;

  17. #17
    Membre chevronné Avatar de iblis
    Inscrit en
    Janvier 2007
    Messages
    510
    Détails du profil
    Informations personnelles :
    Âge : 58

    Informations forums :
    Inscription : Janvier 2007
    Messages : 510
    Par défaut
    Je t'ai montré le contenu de @results après éxécution, tel que tu peux le voir avec le debugger (que peu de gens utilisent, je ne sais pas pourquoi, je le lance systématiquement pour tester mes scripts, en particulier pour le data mining).

    Bref, ajoute ça en fin de script :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    use Data::Dumper;    
    print Dumper @results;
    Sinon pour le format dans lequel le résultat est obtenu (un tableau de tableau), j'ai juste supposé que c'est ce que tu voulais. L'idée était de te monter une solution XPath.

  18. #18
    Membre averti
    Inscrit en
    Décembre 2008
    Messages
    16
    Détails du profil
    Informations forums :
    Inscription : Décembre 2008
    Messages : 16
    Par défaut
    toujours bizzare , j'obtiens rien !

  19. #19
    Membre chevronné Avatar de iblis
    Inscrit en
    Janvier 2007
    Messages
    510
    Détails du profil
    Informations personnelles :
    Âge : 58

    Informations forums :
    Inscription : Janvier 2007
    Messages : 510
    Par défaut
    J'avais repris tes données comme j'ai pu :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    #!/usr/bin/env perl
    use strict; use warnings;
    use HTML::TreeBuilder::XPath;
     
    my $html = do {local $/; <DATA>};
    my $tree = HTML::TreeBuilder::XPath->new();
    $tree->parse( $html );
     
    my @elements = map { $_->parent } 
      @{ $tree->findnodes('//tr/td[.=~ /^\s+\d+\s+$/]') };
     
    my @results;
    for my $element (@elements) {
      push @results, [ map { $_->as_text} $element->find('td') ]
    }
     
    # less readable but shorter :
    # my @result = map { [ map { $_->as_text} $_->find('td') ] } @elements;
     
    use Data::Dumper;
    print Dumper @results;
     
    0;
     
    __DATA__
    <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN">
    <html xmlns:fwbuilder="http://www.fwbuilder.org/1.0/">
      <head>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
        <title></title>
      </head>
      <body bgcolor="#FFFFFF" link="#0000EE" vlink="#551A8B" alink="#0000EE">
        <h2>
          Firewall policy definition
        </h2>
        <p>
          <a href="#_NETWORKS">Networks</a> | <a href="#_ADDRRANGES">Address Ranges</a> | <a href="#_HOSTS">Hosts</a> | <a href="#_GROUPS">Object Groups</a> | <a href="#_SERVICES">Services</a> | <a href="#_SERVGROUPS">Service Groups</a><br>
          <br>
        </p>
        <table border="1" cellspacing="0" width="%95">
          <tr>
            <td>
              <table border="0" cellspacing="2" width="%100">
                <tr>
                  <th colspan="2" bgcolor="#CCCCCC">
                    Firewall
                  </th>
                </tr>
                <tr>
                  <th colspan="2"></th>
                </tr>
                <tr>
                  <th align="left" width="20%">
                    Name:
                  </th>
                  <td align="left">
                    FW1
                  </td>
                </tr>
                <tr>
                  <th align="left" width="20%">
                    Platform:
                  </th>
                  <td align="left">
                    pix
                  </td>
                </tr>
                <tr>
                  <th align="left" width="20%">
                    Host OS:
                  </th>
                  <td align="left">
                    pix_os
                  </td>
                </tr>
                <tr>
                  <th align="left" width="20%">
                    Comment:
                  </th>
                  <td align="left"></td>
                </tr>
                <tr>
                  <th colspan="2"></th>
                </tr>
                <tr>
                  <th colspan="2"></th>
                </tr>
                <tr>
                  <td colspan="2">
                    <br>
                    <table border="1" width="95%" cellspacing="0">
                      <caption align="left">
                        <b><font size="+1">NAT rules</font></b>
                      </caption>
                      <tr>
                        <th width="20" bgcolor="#009900">
                          <font color="#FFFFFF">Num</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">OSrc</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">ODst</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">OSrv</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">TSrc</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">TDst</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">TSrv</font>
                        </th>
                      </tr>
                    </table><br>
                    <table border="1" width="95%" cellspacing="0">
                      <caption align="left">
                        <b><font size="+1">Policy Rules</font></b>
                      </caption>
                      <tr>
                        <th width="20" bgcolor="#009900">
                          <font color="#FFFFFF">Num</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">Src</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">Dst</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">Srv</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">Action</font>
                        </th>
                        <th bgcolor="#009900">
                          <font color="#FFFFFF">Comment</font>
                        </th>
                      </tr>
                      <tr>
                        <td>
                          0
                        </td>
                        <td>
                          Any<br>
                        </td>
                        <td>
                          Any<br>
                        </td>
                        <td>
                          <a href="#objdef-id3C20EEB5">any ICMP</a><br>
                        </td>
                        <td>
                          Accept
                        </td>
                        <td>
                          <br>
                        </td>
                      </tr>
                      <tr>
                        <td>
                          1
                        </td>
                        <td>
                          <a href="#objdef-id3206X4432">mx1.messagelabs.com</a><br>
                        </td>
                        <td>
                          <a href="#objdef-id1856X4432">MX_servers</a><br>
                        </td>
                        <td>
                          smtp<br>
                        </td>
                        <td>
                          Accept
                        </td>
                        <td>
                          <br>
                        </td>
                      </tr>
                    </table>
                  </td>
                </tr>
              </table>
            </td>
          </tr>
        </table>
      </body>
    </html>
    Et ça donne ça, recraché par Dumper :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    $VAR1 = [
              ' 0 ',
              ' Any ',
              ' Any ',
              'any ICMP ',
              ' Accept ',
              ' '
            ];
    $VAR2 = [
              ' 1 ',
              'mx1.messagelabs.com ',
              'MX_servers ',
              ' smtp ',
              ' Accept ',
              ' '
            ];
    Si ton HTML est différent tu dois peut être adapter. Au fait Fwbuilder n'a pas une fonction d'export XML ?

    Si tu coinces vraiment, joins ton fichier HTML entier, qu'on voit où ça coince.

Discussions similaires

  1. parser un fichier HTML avec JAVA
    Par ouinih dans le forum EDI et Outils pour Java
    Réponses: 2
    Dernier message: 09/02/2009, 10h33
  2. parser un fichier html: htmlparser
    Par dalila555 dans le forum Format d'échange (XML, JSON...)
    Réponses: 4
    Dernier message: 24/04/2007, 11h34
  3. parser un fichier html en utilisant java
    Par taouja dans le forum Services Web
    Réponses: 1
    Dernier message: 16/04/2007, 10h12
  4. [C#] Comment lire et parser un fichier html ?
    Par fix105 dans le forum C#
    Réponses: 4
    Dernier message: 28/01/2006, 15h38
  5. parser un fichier html
    Par noarno dans le forum ASP
    Réponses: 2
    Dernier message: 10/12/2003, 17h53

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo