IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Ennui avec l'analyse d'une page HTML


Sujet :

Langage PHP

  1. #1
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Février 2003
    Messages
    54
    Détails du profil
    Informations personnelles :
    Âge : 42
    Localisation : France

    Informations forums :
    Inscription : Février 2003
    Messages : 54
    Points : 31
    Points
    31
    Par défaut Ennui avec l'analyse d'une page HTML
    Bonjour à tous,

    Voilà, j'aimerais parser une page HTML, pour celà j'ai une classe et jusque là tout va bien.
    Mais il semblerait que la code doit être trop crade ou trop lourd donc je me retrouve avec un output totalement inexploitable.

    Pour celà, j'avais pensé à parser seulement à partir d'un certain endroit.
    Genre un tableau bien distinctif :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    <table id="letableaubiendistinctif>.....</table><p id="une_balise_bien_distinct_pour_mettre_fin_au_parsing">"
    Vos avis la dessus ?
    En gros au lieu de faire :
    -> Récupération du source
    -> Parser entièrement
    -> Exploité le contenu

    Ça donnerait :
    -> Récupération du source à partir d'un certain endroit jusqu'à un autre.
    -> Exploité le contenu

    A tout hasard, voici ma classe (elle date hein, soyez indulgent :p )

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
     
    <?php
    class html_parser{
     
        var $content;
        var $linecount;
     
        function html_parser($file, $linecount=0){
            $this->content .= '<style>font, ol, li { font-family: "Courier New", Courier; font-size: 12px; } </style>';    
            $this->linecount = $linecount;
            if($this->linecount) $this->content .= '<ol type="1">';
     
            $id = @fopen($file,"r");
     
            while($data = fread($id, 4096)) $this->html_parse($data);
     
            fclose($id);
     
            if($this->linecount) $this->content .= '</ol>';
     
        }
     
        function html_parse($input){
     
            $end = 1;
            while($end>0){
                $start = strpos($input,"<");
     
                if((strpos($input,"!--")-1)==$start){
                    $end = strpos($input,"-->");
                    if($end>0){
                        $comment = substr($input,$start+4,$end-$start-4);
                        $this->content .= ($this->linecount ? '<li>'.$this->html_comment($comment).'</li>' : $this->html_comment($comment) );
                        $input = substr($input,$end+3);
                    }
                }elseif((strpos($input,"!")-1)==$start){
                    $end = strpos($input,">");
                    if($end>0){
                        $doctype = substr($input,$start+2,$end-$start-2);
                        $this->content .= ($this->linecount ? '<li>'.$this->html_doctype($doctype).'</li>' : $this->html_doctype($doctype) );
                        $input = substr($input,$end+1);
                    }
                }else{
                    $end = strpos($input,">");
                    if($end>0){
                        $tag = trim(substr($input,$start+1,$end-$start-1));
                        $this->content .= $this->html_text(substr($input,0,$start));
                        $this->content .= ($this->linecount ? '<li>'.$this->htmlparse_parsetag($tag).'</li>' : $this->htmlparse_parsetag($tag) );
                        $input = substr($input,$end+1);
                    }
                }
            }
            $this->content .= $input;
     
        }
     
        function htmlparse_parsetag($tag){
            if(((strrpos($tag,"/")+1)==strlen($tag)) and (strlen($tag)>1)) $tag = substr($tag,0,strlen($tag)-1);
     
            if (strpos($tag," ")>0){
                $pos = strpos($tag," ");
                $element = trim(substr($tag,0,$pos));
                $attributes = $this->htmlparse_parseattributes(trim(substr($tag,$pos)));
                $tagasi .= $this->html_start($element,$attributes);
            }else{
                $element = trim($tag);
                if ((strpos($element,"/")===false)){
                    $tagasi .= $this->html_start($element);
                }else{
                    $tagasi .= $this->html_end(substr($element,1));
                }
            }
            return $tagasi;
        }
     
        function htmlparse_parseattributes($attributes){
            unset($output);
            $attribute = "";
     
            while(strpos($attributes,"=")>0){
                $pos = strpos($attributes,"=");
                $attribute = trim(substr($attributes,0,$pos));
                $attributes = trim(substr($attributes,$pos+1));
                $pos2 = strpos($attributes,"\"");
                $pos3 = strpos($attributes,"'");
                if(!($pos3===false) and !($pos2===false) and ($pos3<$pos2)) $pos2 = $pos3;
                if(!($pos3===false) and ($pos2===false) and (($pos3<$pos) or ($pos==0))) $pos2 = $pos3;
     
                if(!($pos2===false) and (($pos2<$pos) or ($pos==0))){
                    if (substr($attributes,0,1) == "\""){
                        $pos = strpos($attributes,"\"",1);
                        $val = substr($attributes,1,$pos-1);
                    }elseif (substr($attributes,0,1) == "'"){
                        $pos = strpos($attributes,"'",1);
                        $val = substr($attributes,1,$pos-1);
                    }else{
                        $pos1 = strpos($attributes,"=",1);
                        $val = substr($attributes,0,$pos1);
                        $pos1a = strrpos($val," ");
                        $pos = $pos1-(strlen($val)-$pos1a);
                        $val = substr($val,0,$pos1a);
                    }
     
                    while (strpos($attribute," ")>0){
                        $pos1 = strpos($attribute," ");
                        $attr1 = substr($attribute,0,$pos1);
                        $output[$attr1] = null;
                        $attribute = trim(substr($attribute,$pos1+1));
                    }
     
                    $output[$attribute] = $val;
                    $attributes = trim(substr($attributes,$pos+1));
     
                }elseif ($pos>0){
                    if (strpos($attributes,"=")>0){
                        $pos = strpos($attributes,"=");
                        $val = substr($attributes,0,$pos);
                    }else{
                        $val = $attributes;
                    }
     
                    $pos2 = strrpos($val," ");
                    if($pos2>0){
                        $len = strlen($val);
                        $val = substr($val,0,$pos2);
                        $attributes = trim(substr($attributes,($pos-$len)+$pos2));
                    }else{
                        $len = strlen($val);
                        $attributes = trim(substr($attributes,$len));
                    }
     
                    while (strpos($attribute," ")>0){
                        $pos1 = strpos($attribute," ");
                        $attr1 = substr($attribute,0,$pos1);
                        $output[$attr1] = null;
                        $attribute = trim(substr($attribute,$pos1+1));
                    }
     
                    $output[$attribute] = $val;
     
                }else{
                    while (strpos($attribute," ")>0){
                        $pos1 = strpos($attribute," ");
                        $attr1 = substr($attribute,0,$pos1);
                        $output[$attr1] = null;
                        $attribute = trim(substr($attribute,$pos1+1));
                    }
                    $output[$attribute] = $attributes;
                }
            }
     
            if(strlen(trim($attributes))>0){
                while (strpos($attribute," ")>0){
                    $pos1 = strpos($attribute," ");
                    $attr1 = substr($attribute,0,$pos1);
                    $output[$attr1] = null;
                    $attribute = trim(substr($attribute,$pos1+1));
                }
     
                $output[$attributes] = null;
     
            }
     
            if (isset($output)) return($output);
        }
     
     
        function html_start($element,$attributes=FALSE, $t=0){
     
            $tagasi .= '<font color="#0000ff">'.htmlentities('<'.$element);
     
            if(is_array($attributes)){
                while(list($k, $v) = each($attributes)){
                    $k = strtolower($k);
                    $tagasi .= '<font color="#ff0000"> '.strtolower($k).'</font>';
                    if($v!=null){
                        $tagasi .= '=';
                        $tagasi .= '<font color="#FF00FF">"'.htmlentities($v).'"</font>';
                    }
                }
            }
            $tagasi .= htmlentities('>').'</font>';
            return $tagasi;
        }
     
     
        function html_end($element, $t=0)
        {
            return '<font color="#0000ff">'.htmlentities('</').htmlentities($element).htmlentities('>').'</font>';
        }
     
     
        function html_text($data, $t=0)
        {
            return '<font color="#000000">'.nl2br(htmlentities($data)).'</font>';
        }
     
     
        function html_comment($data, $t=0)
        {
            return '<font color="#008000">'.nl2br(htmlentities('<!--'.$data.'-->')).'</font>';
        }
     
     
        function html_doctype($data, $t=0)
        {
            return '<font color="#999999">'.htmlentities('<!'.$data.'>').'</font>';
        }    
     
     
    }
    ?>
    Et bien sûr l'appel :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    include_once("includes/php/html_parser.php");
    $file = "http://www.google.fr";
    $parser = new html_parser($file,1);
     
    echo $parser->content;
    Merci de vos suggestions

  2. #2
    Membre averti Avatar de Huntress
    Femme Profil pro
    Inscrit en
    Août 2004
    Messages
    475
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations forums :
    Inscription : Août 2004
    Messages : 475
    Points : 402
    Points
    402
    Par défaut
    Bonsoir,

    Je n'ai pas eu le courage de bien lire ta class, mais concernant la méthodologie j'approuve. Je suis passée par là il y a 6 mois (pas en POO mais en procédurale, v'là le script de déjantée) pour récupérer tout un site en statique (un site à la FrontPage WaOUUOUUUUUUH ). C'était pas évident il restait quelques coquilles dans certains textes mais je crois que c'était la seule solution qu'il me restait.

    Ah ! Pis je vois que ton tableau a un id ! huhu snirrrf moi j'ai même pas eu cette chance, ton code semble donc plus propre que celui que j'ai récup' à l'époque, çà devrait donc pas trop mal se passer.

    Règle n°1 du forum francophone : Parler le français...
    Pas de question technique par MP, le forum est fait pour çà, merci.

  3. #3
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Février 2003
    Messages
    54
    Détails du profil
    Informations personnelles :
    Âge : 42
    Localisation : France

    Informations forums :
    Inscription : Février 2003
    Messages : 54
    Points : 31
    Points
    31
    Par défaut
    Citation Envoyé par Huntress Voir le message
    Je suis passée par là il y a 6 mois (pas en POO mais en procédurale, v'là le script de déjantée) pour récupérer tout un site en statique (un site à la FrontPage WaOUUOUUUUUUH ). C'était pas évident il restait quelques coquilles dans certains textes mais je crois que c'était la seule solution qu'il me restait.

    Ah ! Pis je vois que ton tableau a un id ! huhu snirrrf moi j'ai même pas eu cette chance
    Ouch j'ai mal pour toi :p

    Ok donc dans la logique, je ne suis pas le seul à penser que c'est faisable
    Maintenant va falloir trouver comment et ça c'est une autre histoire :/

Discussions similaires

  1. Comment coder une sous section avec un menu dans une page HTML
    Par edave dans le forum Balisage (X)HTML et validation W3C
    Réponses: 1
    Dernier message: 09/12/2014, 18h49
  2. Réponses: 4
    Dernier message: 06/10/2008, 16h27
  3. Réponses: 4
    Dernier message: 24/08/2007, 15h56
  4. Réponses: 7
    Dernier message: 14/09/2005, 10h50

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo