Publicité
+ Répondre à la discussion
Affichage des résultats 1 à 3 sur 3
  1. #1
    Nouveau Membre du Club
    Homme Profil pro
    Webmaster
    Inscrit en
    juin 2011
    Messages
    70
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : juin 2011
    Messages : 70
    Points : 38
    Points
    38

    Par défaut Attraper données depuis source html (table)

    Bonsoir

    Je fais appel à vous pour un problème de pattern que je n'arrive pas à régler.
    Tout d'abord, pour mettre dans le contexte, le but est de récupérer les attributs possibles, ainsi que les valeurs possibles dans le cas ou elles sont énumérées (comme le target="_blank|_parent|_self|_top" par exemple). Tout ça pour permettre à une classe, qui propose l'insertion d'html à la volée dans un masque, de vérifier que la balise existe, les attributs aussi ainsi que leur valeur dans le cas d'un énum, le principe étant de pouvoir utiliser cette classe en encadrant un minimum une syntaxe au norme W3C. donc mon script récupère la page dédiée de chaque balise depuis le site W3C, et j'essaie avec une regex de récupérer la partie attributs.

    Voilà l'expression que j'ai actuellement :
    Code php :
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    $pattern = '/
    <tr>
    \s*
       <td><a\s{1,1}href=".+">([a-z]+)<\/a>(?:\s{1,1}<span\s*class="new">New<\/span>){0,1}
       <\/td>
       \s*
       <td>
       (?:
       (<i>(.+)<\/i>)?
       |
       (.+(?:<br>)?)*
       )
       <\/td>
       \s*
       <td>(.+)<\/td>
       \s*
    <\/tr>
    /x';

    Le problème est au niveau de la cellule dont j'ai mis le code en couleur rouge. Il me sort les attributs qui n'ont pas d'enum uniquement (donc le premier cas entouré par <i>).

    2 Exemples différents de cette cellule, le premier qu'il est capable de récupérer :
    Code html :
    1
    2
     
    <td><i>media_query</i></td>

    Et le second, qu'il omet et qui me pose problème :
    Code html :
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
     
    <td>alternate<br>
    	author<br>
    	bookmark<br>
    	help<br>
    	license<br>
    	next<br>
    	nofollow<br>
    	noreferrer<br>
    	prefetch<br>
    	prev<br>
    	search<br>
    	tag</td>
    Je précise que du coup dans ce cas précis, la regex est fausse et donc il ne me fais pas ressortir l'attribut. Même problème, si je remplace par (.+). Ca sort si je met le drapeau s mais du coup ça je récupère quasiment toute la page avec.

    Qu'en pensez-vous ? J'aimerais avoir au moins la liste de tous les attributs possibles, les valeurs c'est un peut être poussé je suis prêt à m'en passer pour le moment.

  2. #2
    Responsable Développement Web

    Avatar de Bovino
    Homme Profil pro Didier Mouronval
    Développeur Web
    Inscrit en
    juin 2008
    Messages
    21 977
    Détails du profil
    Informations personnelles :
    Nom : Homme Didier Mouronval
    Âge : 43
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : juin 2008
    Messages : 21 977
    Points : 81 188
    Points
    81 188

    Par défaut

    Combien de fois faudra-t-il répéter que pour parser du HTML, les regex ne sont pas la bonne solution !
    Il faut utiliser DOMDocument
    Pas de question technique par MP !
    Tout le monde peut participer à developpez.com, vous avez une idée, contactez-moi !
    Mes formations video2brain : La formation complète sur JavaScriptJavaScript et le DOM par la pratiquePHP 5 et MySQL : les fondamentaux
    Mon livre sur jQuery
    Module Firefox / Chrome d'intégration de JSFiddle et CodePen sur le forum

  3. #3
    Nouveau Membre du Club
    Homme Profil pro
    Webmaster
    Inscrit en
    juin 2011
    Messages
    70
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : juin 2011
    Messages : 70
    Points : 38
    Points
    38

    Par défaut

    Pas de bonjour bon .. Il s'avère que je ne connaissais pas cette class, ça révolutionne mes plans, merci de l'avoir répété encore une fois Bovino, et je pense que tu auras encore à la répéter un paquet de fois. Merci !

+ Répondre à la discussion
Cette discussion est résolue.

Liens sociaux

Règles de messages

  • Vous ne pouvez pas créer de nouvelles discussions
  • Vous ne pouvez pas envoyer des réponses
  • Vous ne pouvez pas envoyer des pièces jointes
  • Vous ne pouvez pas modifier vos messages
  •