Précédent   Forum des professionnels en informatique > PHP > Langage > Regex
Regex Forum d'entraide sur les expressions rationnelles PHP. Avant de poster -> FAQ regex, Cours de regex et Sources de regex
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 01/07/2011, 16h21   #1
Membre régulier
 
Homme
Étudiant
Inscription : juin 2011
Messages : 55
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France, Val d'Oise (Île de France)

Informations professionnelles :
Activité : Étudiant
Secteur : High Tech - Multimédia et Internet

Informations forums :
Inscription : juin 2011
Messages : 55
Points : 77
Points : 77
Par défaut Limite d'une regexp ?

Bonjour à tous et à toutes.

je cherche a extraire tous les hyperliens d'une page web. Je me sers donc de cette petite regexp sympathique
Code :
(<a[^<>]*?href=["\'](.+?)["\'].*?>(.*?)</a>)|(<form[^<>]*?action=["\'](.+?)["\'].*?>)|(<area[^<>]*?href=["\'](.+?)["\'].*?>)
Elle fonctionne a merveille mais voila que j'ai un site ou il y a énormément de balise <area ...>

Donc après plusieurs test voici les résultats que je ne comprend pas très bien...

Jusqu'à 7 liens ca marche
Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
<area shape="poly" coords="..." href="lien1.html" title="title1">
<area shape="poly" coords="..." href="lien2.html" title="title2">
<area shape="poly" coords="..." href="lien3.html" title="title3">
<area shape="poly" coords="..." href="lien4.html" title="title4">
<area shape="poly" coords="..." href="lien5.html" title="title5">
<area shape="poly" coords="..." href="lien6.html" title="title6">
<area shape="poly" coords="..." href="lien7.html" title="title7">
 
pattern : '#(<a[^<>]*?href=["\'](.+?)["\'].*?>(.*?)</a>)|(<form[^<>]*?action=["\'](.+?)["\'].*?>)|(<area[^<>]*?href=["\'](.+?)["\'].*?>)#'
 
Résultat : 
( 0 => '<area shape="poly" coords="..." href="lien1.html" title="title1">'
1 => ''
2 => ''
3 => ''
4 => ''
5 => ''
6 => '<area shape="poly" coords="..." href="lien1.html" title="title1">'
7 => 'article408.html'
)
Et a 8 ca plante...
Code :
1
2
3
4
5
6
7
8
9
10
11
12
<area shape="poly" coords="..." href="lien1.html" title="title1">
<area shape="poly" coords="..." href="lien2.html" title="title2">
<area shape="poly" coords="..." href="lien3.html" title="title3">
<area shape="poly" coords="..." href="lien4.html" title="title4">
<area shape="poly" coords="..." href="lien5.html" title="title5">
<area shape="poly" coords="..." href="lien6.html" title="title6">
<area shape="poly" coords="..." href="lien7.html" title="title7">
<area shape="poly" coords="..." href="lien8.html" title="title8">
 
pattern : '#(<a[^<>]*?href=["\'](.+?)["\'].*?>(.*?)</a>)|(<form[^<>]*?action=["\'](.+?)["\'].*?>)|(<area[^<>]*?href=["\'](.+?)["\'].*?>)#'
 
Pas de match
Quelqu'un pourrait m'expliquer pourquoi et s'il y a un moyen de pallier ce problème ?
Avalion est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/07/2011, 16h26   #2
Modérateur
 
Inscription : septembre 2010
Messages : 7 103
Détails du profil
Informations forums :
Inscription : septembre 2010
Messages : 7 103
Points : 8 456
Points : 8 456
utilise DOMDocument pour parser du HTML
__________________
http://blog.stealth35.com/
stealth35 est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 03/07/2011, 01h41   #3
Membre régulier
 
Homme
Étudiant
Inscription : juin 2011
Messages : 55
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France, Val d'Oise (Île de France)

Informations professionnelles :
Activité : Étudiant
Secteur : High Tech - Multimédia et Internet

Informations forums :
Inscription : juin 2011
Messages : 55
Points : 77
Points : 77
Certes ^^ mais ca n'explique pas le problème un peu étrange... mais merci du conseil
Avalion est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/07/2011, 05h53   #4
Modérateur
 
Inscription : septembre 2010
Messages : 7 103
Détails du profil
Informations forums :
Inscription : septembre 2010
Messages : 7 103
Points : 8 456
Points : 8 456
Citation:
Envoyé par Avalion Voir le message
Certes ^^ mais ca n'explique pas le problème un peu étrange... mais merci du conseil
pourquoi étrange y'a rien qui me choque le [^<>] c'est tout les caractères sauf < et > donc forcement le era est dedans, utilise les bons outils et tu n'auras pas ce probleme ...
__________________
http://blog.stealth35.com/
stealth35 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/07/2011, 09h27   #5
Membre régulier
 
Homme
Étudiant
Inscription : juin 2011
Messages : 55
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France, Val d'Oise (Île de France)

Informations professionnelles :
Activité : Étudiant
Secteur : High Tech - Multimédia et Internet

Informations forums :
Inscription : juin 2011
Messages : 55
Points : 77
Points : 77
oui <area ... href=""> est bien reconnu par '#<a[^<>]*?href="(.+?)"#' mais pas par '#<a[^<>]*?href="(.+?)"[^<>]*?>.*?</a>#'

deuxièmement même au cas ou ca aurait été ca, il aurait du me retourner ma balise, même s'il me la considérait comme un lien et pas un area. or ici, le retour est vide... Ce que je ne pige pas c'est juste que ca fonctionne pour une chaine ou il y a 7 patterns à la syntaxe totalement identique mais plus pour 8 (dans ce cas la)
Avalion est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/07/2011, 09h44   #6
Modérateur
 
Inscription : septembre 2010
Messages : 7 103
Détails du profil
Informations forums :
Inscription : septembre 2010
Messages : 7 103
Points : 8 456
Points : 8 456
Citation:
mais pas par '#<a[^<>]*?href="(.+?)"[^<>]*?>.*?</a>#
normale si tu fermes ton <area> par </a> ...
__________________
http://blog.stealth35.com/
stealth35 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/07/2011, 10h11   #7
Membre régulier
 
Homme
Étudiant
Inscription : juin 2011
Messages : 55
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France, Val d'Oise (Île de France)

Informations professionnelles :
Activité : Étudiant
Secteur : High Tech - Multimédia et Internet

Informations forums :
Inscription : juin 2011
Messages : 55
Points : 77
Points : 77
J'ai posté mes tests, il n'y a pas de </a> J'ai fini par réussir à faire ce que je voulais mais je comprend toujours pas pourquoi cette erreur à lieu (simple curiosité ^^) et effectivement, j'ai changé mon pattern en '#<a[^r>][^<>]*? (...)#' merci pour ca ^^

Je précise que je fais un simple preg_match et non un preg_match_all dans le cas du test
Citation:
Envoyé par Avalion Voir le message
Jusqu'à 7 liens ca marche
Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
<area shape="poly" coords="..." href="lien1.html" title="title1">
<area shape="poly" coords="..." href="lien2.html" title="title2">
<area shape="poly" coords="..." href="lien3.html" title="title3">
<area shape="poly" coords="..." href="lien4.html" title="title4">
<area shape="poly" coords="..." href="lien5.html" title="title5">
<area shape="poly" coords="..." href="lien6.html" title="title6">
<area shape="poly" coords="..." href="lien7.html" title="title7">
 
pattern : '#(<a[^<>]*?href=["\'](.+?)["\'].*?>(.*?)</a>)|(<form[^<>]*?action=["\'](.+?)["\'].*?>)|(<area[^<>]*?href=["\'](.+?)["\'].*?>)#'
 
Résultat : 
( 0 => '<area shape="poly" coords="..." href="lien1.html" title="title1">'
1 => ''
2 => ''
3 => ''
4 => ''
5 => ''
6 => '<area shape="poly" coords="..." href="lien1.html" title="title1">'
7 => 'article408.html'
)
Et a 8 ca plante...
Code :
1
2
3
4
5
6
7
8
9
10
11
12
<area shape="poly" coords="..." href="lien1.html" title="title1">
<area shape="poly" coords="..." href="lien2.html" title="title2">
<area shape="poly" coords="..." href="lien3.html" title="title3">
<area shape="poly" coords="..." href="lien4.html" title="title4">
<area shape="poly" coords="..." href="lien5.html" title="title5">
<area shape="poly" coords="..." href="lien6.html" title="title6">
<area shape="poly" coords="..." href="lien7.html" title="title7">
<area shape="poly" coords="..." href="lien8.html" title="title8">
 
pattern : '#(<a[^<>]*?href=["\'](.+?)["\'].*?>(.*?)</a>)|(<form[^<>]*?action=["\'](.+?)["\'].*?>)|(<area[^<>]*?href=["\'](.+?)["\'].*?>)#'
 
Pas de match
Avalion est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/07/2011, 10h15   #8
Modérateur
 
Inscription : septembre 2010
Messages : 7 103
Détails du profil
Informations forums :
Inscription : septembre 2010
Messages : 7 103
Points : 8 456
Points : 8 456
Citation:
Envoyé par stealth35 Voir le message
utilise DOMDocument pour parser du HTML
je vois pas pourquoi tu t’embêtes ...
__________________
http://blog.stealth35.com/
stealth35 est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 06h06.


 
 
 
 
Partenaires

Hébergement Web