p
u
b
l
i
c
i
t
é
publicité
  1. #1
    Membre du Club
    Homme Profil pro
    Webmaster
    Inscrit en
    juin 2011
    Messages
    70
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : juin 2011
    Messages : 70
    Points : 42
    Points
    42

    Par défaut Attraper données depuis source html (table)

    Bonsoir

    Je fais appel à vous pour un problème de pattern que je n'arrive pas à régler.
    Tout d'abord, pour mettre dans le contexte, le but est de récupérer les attributs possibles, ainsi que les valeurs possibles dans le cas ou elles sont énumérées (comme le target="_blank|_parent|_self|_top" par exemple). Tout ça pour permettre à une classe, qui propose l'insertion d'html à la volée dans un masque, de vérifier que la balise existe, les attributs aussi ainsi que leur valeur dans le cas d'un énum, le principe étant de pouvoir utiliser cette classe en encadrant un minimum une syntaxe au norme W3C. donc mon script récupère la page dédiée de chaque balise depuis le site W3C, et j'essaie avec une regex de récupérer la partie attributs.

    Voilà l'expression que j'ai actuellement :
    Code php : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    $pattern = '/
    <tr>
    \s*
       <td><a\s{1,1}href=".+">([a-z]+)<\/a>(?:\s{1,1}<span\s*class="new">New<\/span>){0,1}
       <\/td>
       \s*
       <td>
       (?:
       (<i>(.+)<\/i>)?
       |
       (.+(?:<br>)?)*
       )
       <\/td>
       \s*
       <td>(.+)<\/td>
       \s*
    <\/tr>
    /x';

    Le problème est au niveau de la cellule dont j'ai mis le code en couleur rouge. Il me sort les attributs qui n'ont pas d'enum uniquement (donc le premier cas entouré par <i>).

    2 Exemples différents de cette cellule, le premier qu'il est capable de récupérer :
    Code html : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    <td><i>media_query</i></td>

    Et le second, qu'il omet et qui me pose problème :
    Code html : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
     
    <td>alternate<br>
    	author<br>
    	bookmark<br>
    	help<br>
    	license<br>
    	next<br>
    	nofollow<br>
    	noreferrer<br>
    	prefetch<br>
    	prev<br>
    	search<br>
    	tag</td>
    Je précise que du coup dans ce cas précis, la regex est fausse et donc il ne me fais pas ressortir l'attribut. Même problème, si je remplace par (.+). Ca sort si je met le drapeau s mais du coup ça je récupère quasiment toute la page avec.

    Qu'en pensez-vous ? J'aimerais avoir au moins la liste de tous les attributs possibles, les valeurs c'est un peut être poussé je suis prêt à m'en passer pour le moment.

  2. #2
    Responsable Développement Web


    Avatar de Bovino
    Homme Profil pro
    Développeur Web
    Inscrit en
    juin 2008
    Messages
    23 788
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : juin 2008
    Messages : 23 788
    Points : 91 310
    Points
    91 310
    Billets dans le blog
    20

    Par défaut

    Combien de fois faudra-t-il répéter que pour parser du HTML, les regex ne sont pas la bonne solution !
    Il faut utiliser DOMDocument
    Pas de question technique par MP !
    Tout le monde peut participer à developpez.com, vous avez une idée, contactez-moi !
    Mes formations video2brain : La formation complète sur JavaScriptJavaScript et le DOM par la pratiquePHP 5 et MySQL : les fondamentaux
    Mon livre sur jQuery
    Module Firefox / Chrome d'intégration de JSFiddle et CodePen sur le forum

  3. #3
    Membre du Club
    Homme Profil pro
    Webmaster
    Inscrit en
    juin 2011
    Messages
    70
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : juin 2011
    Messages : 70
    Points : 42
    Points
    42

    Par défaut

    Pas de bonjour bon .. Il s'avère que je ne connaissais pas cette class, ça révolutionne mes plans, merci de l'avoir répété encore une fois Bovino, et je pense que tu auras encore à la répéter un paquet de fois. Merci !

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. récupérer des données depuis une table mysql
    Par godbless dans le forum PHP & MySQL
    Réponses: 1
    Dernier message: 23/10/2008, 13h04
  2. problème d'affichage RSS 2.0 depuis source html
    Par mims1664 dans le forum XML/XSL et SOAP
    Réponses: 1
    Dernier message: 09/09/2008, 11h03
  3. Réponses: 5
    Dernier message: 08/07/2008, 16h55
  4. envoyer des données depuis cellules excel à une table access
    Par alaouiyassine01 dans le forum Macros et VBA Excel
    Réponses: 1
    Dernier message: 30/10/2007, 17h39
  5. Réponses: 2
    Dernier message: 20/04/2006, 16h03

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo