Précédent   Forum du club des développeurs et IT Pro > PHP > Langage > Regex
Regex Forum d'entraide sur les expressions rationnelles PHP. Avant de poster -> FAQ regex, Cours de regex et Sources de regex
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse
 
Outils de la discussion
Publicité
'
Vieux 04/01/2013, 18h26   #1
flozza
Membre du Club
 
Homme
Webmaster
Inscription : juin 2011
Messages : 68
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France

Informations professionnelles :
Activité : Webmaster

Informations forums :
Inscription : juin 2011
Messages : 68
Points : 45
Points : 45
Par défaut Attraper données depuis source html (table)

Bonsoir

Je fais appel à vous pour un problème de pattern que je n'arrive pas à régler.
Tout d'abord, pour mettre dans le contexte, le but est de récupérer les attributs possibles, ainsi que les valeurs possibles dans le cas ou elles sont énumérées (comme le target="_blank|_parent|_self|_top" par exemple). Tout ça pour permettre à une classe, qui propose l'insertion d'html à la volée dans un masque, de vérifier que la balise existe, les attributs aussi ainsi que leur valeur dans le cas d'un énum, le principe étant de pouvoir utiliser cette classe en encadrant un minimum une syntaxe au norme W3C. donc mon script récupère la page dédiée de chaque balise depuis le site W3C, et j'essaie avec une regex de récupérer la partie attributs.

Voilà l'expression que j'ai actuellement :
Code php :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
$pattern = '/
<tr>
\s*
   <td><a\s{1,1}href=".+">([a-z]+)<\/a>(?:\s{1,1}<span\s*class="new">New<\/span>){0,1}
   <\/td>
   \s*
   <td>
   (?:
   (<i>(.+)<\/i>)?
   |
   (.+(?:<br>)?)*
   )
   <\/td>
   \s*
   <td>(.+)<\/td>
   \s*
<\/tr>
/x';

Le problème est au niveau de la cellule dont j'ai mis le code en couleur rouge. Il me sort les attributs qui n'ont pas d'enum uniquement (donc le premier cas entouré par <i>).

2 Exemples différents de cette cellule, le premier qu'il est capable de récupérer :
Code html :
1
2
 
<td><i>media_query</i></td>

Et le second, qu'il omet et qui me pose problème :
Code html :
1
2
3
4
5
6
7
8
9
10
11
12
13
 
<td>alternate<br>
	author<br>
	bookmark<br>
	help<br>
	license<br>
	next<br>
	nofollow<br>
	noreferrer<br>
	prefetch<br>
	prev<br>
	search<br>
	tag</td>
Je précise que du coup dans ce cas précis, la regex est fausse et donc il ne me fais pas ressortir l'attribut. Même problème, si je remplace par (.+). Ca sort si je met le drapeau s mais du coup ça je récupère quasiment toute la page avec.

Qu'en pensez-vous ? J'aimerais avoir au moins la liste de tous les attributs possibles, les valeurs c'est un peut être poussé je suis prêt à m'en passer pour le moment.
flozza est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 05/01/2013, 10h40   #2
Bovino
Responsable Développement Web

 
Avatar de Bovino
 
Homme Didier Mouronval
Développeur Web
Inscription : juin 2008
Messages : 18 118
Détails du profil
Informations personnelles :
Nom : Homme Didier Mouronval
Âge : 42
Localisation : France, Gironde (Aquitaine)

Informations professionnelles :
Activité : Développeur Web
Secteur : High Tech - Éditeur de logiciels

Informations forums :
Inscription : juin 2008
Messages : 18 118
Points : 64 710
Points : 64 710
Combien de fois faudra-t-il répéter que pour parser du HTML, les regex ne sont pas la bonne solution !
Il faut utiliser DOMDocument
__________________
Pas de question technique par MP !
Tout le monde peut participer à developpez.com, vous avez une idée, contactez-moi !
Vous possédez un blog et aimeriez diffuser vos billets sur le forum, contactez-moi !
Mes formations video2brain : La formation complète sur JavaScriptJavaScript et le DOM par la pratiquePHP 5 et MySQL : les fondamentaux
Mon livre sur jQuery
Bovino est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 05/01/2013, 13h04   #3
flozza
Membre du Club
 
Homme
Webmaster
Inscription : juin 2011
Messages : 68
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France

Informations professionnelles :
Activité : Webmaster

Informations forums :
Inscription : juin 2011
Messages : 68
Points : 45
Points : 45
Pas de bonjour bon .. Il s'avère que je ne connaissais pas cette class, ça révolutionne mes plans, merci de l'avoir répété encore une fois Bovino, et je pense que tu auras encore à la répéter un paquet de fois. Merci !
flozza est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Cette discussion est résolue.
Outils de la discussion

Navigation rapide


Fuseau horaire GMT +2. Il est actuellement 23h53.


 
 
 
 
Partenaires

Hébergement Web