Précédent   Forum des professionnels en informatique > PHP > Langage > Regex
Regex Forum d'entraide sur les expressions rationnelles PHP. Avant de poster -> FAQ regex, Cours de regex et Sources de regex
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 03/10/2007, 18h08   #1
Membre à l'essai
 
Inscription : février 2003
Messages : 54
Détails du profil
Informations personnelles :
Âge : 30
Localisation : France

Informations forums :
Inscription : février 2003
Messages : 54
Points : 23
Points : 23
Envoyer un message via MSN à Joelindien Envoyer un message via Yahoo à Joelindien Envoyer un message via Skype™ à Joelindien
Par défaut Ennui avec l'analyse d'une page HTML

Bonjour à tous,

Voilà, j'aimerais parser une page HTML, pour celà j'ai une classe et jusque là tout va bien.
Mais il semblerait que la code doit être trop crade ou trop lourd donc je me retrouve avec un output totalement inexploitable.

Pour celà, j'avais pensé à parser seulement à partir d'un certain endroit.
Genre un tableau bien distinctif :

Code :
<table id="letableaubiendistinctif>.....</table><p id="une_balise_bien_distinct_pour_mettre_fin_au_parsing">"
Vos avis la dessus ?
En gros au lieu de faire :
-> Récupération du source
-> Parser entièrement
-> Exploité le contenu

Ça donnerait :
-> Récupération du source à partir d'un certain endroit jusqu'à un autre.
-> Exploité le contenu

A tout hasard, voici ma classe (elle date hein, soyez indulgent :p )

Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
 
<?php
class html_parser{
 
    var $content;
    var $linecount;
 
    function html_parser($file, $linecount=0){
        $this->content .= '<style>font, ol, li { font-family: "Courier New", Courier; font-size: 12px; } </style>';    
        $this->linecount = $linecount;
        if($this->linecount) $this->content .= '<ol type="1">';
 
        $id = @fopen($file,"r");
 
        while($data = fread($id, 4096)) $this->html_parse($data);
 
        fclose($id);
 
        if($this->linecount) $this->content .= '</ol>';
 
    }
 
    function html_parse($input){
 
        $end = 1;
        while($end>0){
            $start = strpos($input,"<");
 
            if((strpos($input,"!--")-1)==$start){
                $end = strpos($input,"-->");
                if($end>0){
                    $comment = substr($input,$start+4,$end-$start-4);
                    $this->content .= ($this->linecount ? '<li>'.$this->html_comment($comment).'</li>' : $this->html_comment($comment) );
                    $input = substr($input,$end+3);
                }
            }elseif((strpos($input,"!")-1)==$start){
                $end = strpos($input,">");
                if($end>0){
                    $doctype = substr($input,$start+2,$end-$start-2);
                    $this->content .= ($this->linecount ? '<li>'.$this->html_doctype($doctype).'</li>' : $this->html_doctype($doctype) );
                    $input = substr($input,$end+1);
                }
            }else{
                $end = strpos($input,">");
                if($end>0){
                    $tag = trim(substr($input,$start+1,$end-$start-1));
                    $this->content .= $this->html_text(substr($input,0,$start));
                    $this->content .= ($this->linecount ? '<li>'.$this->htmlparse_parsetag($tag).'</li>' : $this->htmlparse_parsetag($tag) );
                    $input = substr($input,$end+1);
                }
            }
        }
        $this->content .= $input;
 
    }
 
    function htmlparse_parsetag($tag){
        if(((strrpos($tag,"/")+1)==strlen($tag)) and (strlen($tag)>1)) $tag = substr($tag,0,strlen($tag)-1);
 
        if (strpos($tag," ")>0){
            $pos = strpos($tag," ");
            $element = trim(substr($tag,0,$pos));
            $attributes = $this->htmlparse_parseattributes(trim(substr($tag,$pos)));
            $tagasi .= $this->html_start($element,$attributes);
        }else{
            $element = trim($tag);
            if ((strpos($element,"/")===false)){
                $tagasi .= $this->html_start($element);
            }else{
                $tagasi .= $this->html_end(substr($element,1));
            }
        }
        return $tagasi;
    }
 
    function htmlparse_parseattributes($attributes){
        unset($output);
        $attribute = "";
 
        while(strpos($attributes,"=")>0){
            $pos = strpos($attributes,"=");
            $attribute = trim(substr($attributes,0,$pos));
            $attributes = trim(substr($attributes,$pos+1));
            $pos2 = strpos($attributes,"\"");
            $pos3 = strpos($attributes,"'");
            if(!($pos3===false) and !($pos2===false) and ($pos3<$pos2)) $pos2 = $pos3;
            if(!($pos3===false) and ($pos2===false) and (($pos3<$pos) or ($pos==0))) $pos2 = $pos3;
 
            if(!($pos2===false) and (($pos2<$pos) or ($pos==0))){
                if (substr($attributes,0,1) == "\""){
                    $pos = strpos($attributes,"\"",1);
                    $val = substr($attributes,1,$pos-1);
                }elseif (substr($attributes,0,1) == "'"){
                    $pos = strpos($attributes,"'",1);
                    $val = substr($attributes,1,$pos-1);
                }else{
                    $pos1 = strpos($attributes,"=",1);
                    $val = substr($attributes,0,$pos1);
                    $pos1a = strrpos($val," ");
                    $pos = $pos1-(strlen($val)-$pos1a);
                    $val = substr($val,0,$pos1a);
                }
 
                while (strpos($attribute," ")>0){
                    $pos1 = strpos($attribute," ");
                    $attr1 = substr($attribute,0,$pos1);
                    $output[$attr1] = null;
                    $attribute = trim(substr($attribute,$pos1+1));
                }
 
                $output[$attribute] = $val;
                $attributes = trim(substr($attributes,$pos+1));
 
            }elseif ($pos>0){
                if (strpos($attributes,"=")>0){
                    $pos = strpos($attributes,"=");
                    $val = substr($attributes,0,$pos);
                }else{
                    $val = $attributes;
                }
 
                $pos2 = strrpos($val," ");
                if($pos2>0){
                    $len = strlen($val);
                    $val = substr($val,0,$pos2);
                    $attributes = trim(substr($attributes,($pos-$len)+$pos2));
                }else{
                    $len = strlen($val);
                    $attributes = trim(substr($attributes,$len));
                }
 
                while (strpos($attribute," ")>0){
                    $pos1 = strpos($attribute," ");
                    $attr1 = substr($attribute,0,$pos1);
                    $output[$attr1] = null;
                    $attribute = trim(substr($attribute,$pos1+1));
                }
 
                $output[$attribute] = $val;
 
            }else{
                while (strpos($attribute," ")>0){
                    $pos1 = strpos($attribute," ");
                    $attr1 = substr($attribute,0,$pos1);
                    $output[$attr1] = null;
                    $attribute = trim(substr($attribute,$pos1+1));
                }
                $output[$attribute] = $attributes;
            }
        }
 
        if(strlen(trim($attributes))>0){
            while (strpos($attribute," ")>0){
                $pos1 = strpos($attribute," ");
                $attr1 = substr($attribute,0,$pos1);
                $output[$attr1] = null;
                $attribute = trim(substr($attribute,$pos1+1));
            }
 
            $output[$attributes] = null;
 
        }
 
        if (isset($output)) return($output);
    }
 
 
    function html_start($element,$attributes=FALSE, $t=0){
 
        $tagasi .= '<font color="#0000ff">'.htmlentities('<'.$element);
 
        if(is_array($attributes)){
            while(list($k, $v) = each($attributes)){
                $k = strtolower($k);
                $tagasi .= '<font color="#ff0000"> '.strtolower($k).'</font>';
                if($v!=null){
                    $tagasi .= '=';
                    $tagasi .= '<font color="#FF00FF">"'.htmlentities($v).'"</font>';
                }
            }
        }
        $tagasi .= htmlentities('>').'</font>';
        return $tagasi;
    }
 
 
    function html_end($element, $t=0)
    {
        return '<font color="#0000ff">'.htmlentities('</').htmlentities($element).htmlentities('>').'</font>';
    }
 
 
    function html_text($data, $t=0)
    {
        return '<font color="#000000">'.nl2br(htmlentities($data)).'</font>';
    }
 
 
    function html_comment($data, $t=0)
    {
        return '<font color="#008000">'.nl2br(htmlentities('<!--'.$data.'-->')).'</font>';
    }
 
 
    function html_doctype($data, $t=0)
    {
        return '<font color="#999999">'.htmlentities('<!'.$data.'>').'</font>';
    }    
 
 
}
?>
Et bien sûr l'appel :
Code :
1
2
3
4
5
6
 
include_once("includes/php/html_parser.php");
$file = "http://www.google.fr";
$parser = new html_parser($file,1);
 
echo $parser->content;
Merci de vos suggestions
Joelindien est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/10/2007, 22h10   #2
Membre éclairé
 
Avatar de Huntress
 
Inscription : août 2004
Messages : 454
Détails du profil
Informations forums :
Inscription : août 2004
Messages : 454
Points : 339
Points : 339
Bonsoir,

Je n'ai pas eu le courage de bien lire ta class, mais concernant la méthodologie j'approuve. Je suis passée par là il y a 6 mois (pas en POO mais en procédurale, v'là le script de déjantée) pour récupérer tout un site en statique (un site à la FrontPage WaOUUOUUUUUUH ). C'était pas évident il restait quelques coquilles dans certains textes mais je crois que c'était la seule solution qu'il me restait.

Ah ! Pis je vois que ton tableau a un id ! huhu snirrrf moi j'ai même pas eu cette chance, ton code semble donc plus propre que celui que j'ai récup' à l'époque, çà devrait donc pas trop mal se passer.
__________________

Règle n°1 du forum francophone : Parler le français...
Pas de question technique par MP, le forum est fait pour çà, merci.
Huntress est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/10/2007, 14h31   #3
Membre à l'essai
 
Inscription : février 2003
Messages : 54
Détails du profil
Informations personnelles :
Âge : 30
Localisation : France

Informations forums :
Inscription : février 2003
Messages : 54
Points : 23
Points : 23
Envoyer un message via MSN à Joelindien Envoyer un message via Yahoo à Joelindien Envoyer un message via Skype™ à Joelindien
Citation:
Envoyé par Huntress Voir le message
Je suis passée par là il y a 6 mois (pas en POO mais en procédurale, v'là le script de déjantée) pour récupérer tout un site en statique (un site à la FrontPage WaOUUOUUUUUUH ). C'était pas évident il restait quelques coquilles dans certains textes mais je crois que c'était la seule solution qu'il me restait.

Ah ! Pis je vois que ton tableau a un id ! huhu snirrrf moi j'ai même pas eu cette chance
Ouch j'ai mal pour toi :p

Ok donc dans la logique, je ne suis pas le seul à penser que c'est faisable
Maintenant va falloir trouver comment et ça c'est une autre histoire :/
Joelindien est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 21h47.


 
 
 
 
Partenaires

Hébergement Web