IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

extraire des données d'un code hmtl


Sujet :

Langage PHP

  1. #1
    Candidat au Club
    Inscrit en
    Janvier 2009
    Messages
    4
    Détails du profil
    Informations forums :
    Inscription : Janvier 2009
    Messages : 4
    Points : 2
    Points
    2
    Par défaut extraire des données d'un code hmtl
    Bonjour,

    Je débute en php et j'aimerai extraire des données sur un site afin de les stocker dans une base de données.

    Par exemple, récupérer les températures pour la ville de Mons sur un site de météo et les stocker dans une bd.

    Pour le moment, j'arrive à récupérer le code html de la page à l'aide du code suivant :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    $chaine=file_get_contents("nom_du_site");
     $tidy = tidy_parse_string($chaine);
     $html = tidy_get_html($tidy);
    mais je ne sais pas comment faire pour en extraire les données qui m'intéressent.

    Merci d'avance pour votre aide.

  2. #2
    Modérateur
    Avatar de blueice
    Homme Profil pro
    Développeur Web
    Inscrit en
    Mars 2003
    Messages
    3 487
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Mars 2003
    Messages : 3 487
    Points : 5 134
    Points
    5 134
    Par défaut
    Euh pourquoi tidy ?
    Il suffit de parser avec des REGEX...
    -_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_SIGNATURE -_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-
    Dans la mesure du possible, essayez de montrer votre problème en situation réelle en nous donnant une url, que l'on puisse tester.
    Pensez également à cocher

    Aucun problème ne doit être résolu en MP (Message Privé) le forum est là pour ça.

    Dimension Internet

  3. #3
    Candidat au Club
    Inscrit en
    Janvier 2009
    Messages
    4
    Détails du profil
    Informations forums :
    Inscription : Janvier 2009
    Messages : 4
    Points : 2
    Points
    2
    Par défaut
    Je ne vois pas trop comment faire avec les regex :

    J'ai essayé la fonction preg_split pour récupérer le contenu des balises de mon code html mais ça ne fonctionne pas.

    une idée?

    merci d'avance

  4. #4
    Membre confirmé Avatar de goodpz
    Profil pro
    Inscrit en
    Février 2007
    Messages
    475
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2007
    Messages : 475
    Points : 514
    Points
    514
    Par défaut
    Parfois c'est trop compliqué de parser du html avec des expressions régulières (à cause du caractère hiérarchique et recursif du document).
    Y a DOM et XPath qui sont fait pour interroger/parcourir un document html.
    Passer par tidy en amont ça peut être une bonne idée histoire d'avoir un document valide avant de le soumettre à un DOM (voir la doc php à DomDocument etc)

  5. #5
    Membre éclairé Avatar de cadoudal56
    Profil pro
    Inscrit en
    Février 2005
    Messages
    694
    Détails du profil
    Informations personnelles :
    Âge : 52
    Localisation : France

    Informations professionnelles :
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Février 2005
    Messages : 694
    Points : 779
    Points
    779
    Par défaut
    Hello,

    En théorie tu va chercher a faire deux choses....

    La première c'est récupérer ce qu'il y a entre X et Y
    Imaginons que tu souhaite récupérer tout ce qu'il y a dans une table...

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    preg_match('/<table class="standard_tabelle" cellpadding="3" cellspacing="1">(.*)<\/table>/i', $html, $ary);
    $matable = trim($ary[1]);
     
    echo $matable;
    Maintenant imaginons que tu souhaites récupérer toutes les lignes d'une table pour les placer dans un tableau....

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    preg_match_all('/<tr>(.*)<\/tr>/i', $html, $lines, PREG_PATTERN_ORDER);
    foreach ($lines as $data) {
    echo $data;
    }
    Tu l'auras compris je penses, la réponse a test questions se trouve dans preg_match et preg_match_all

    @+
    cadou
    LMN24 - Site d'actualité internationale multilingue
    http://www.lmn24.com

  6. #6
    Candidat au Club
    Inscrit en
    Janvier 2009
    Messages
    4
    Détails du profil
    Informations forums :
    Inscription : Janvier 2009
    Messages : 4
    Points : 2
    Points
    2
    Par défaut
    Tout d'abord merci à tous pour vos réponses

    J'ai essayé le preg_match mais je galère avec les regex, par exemple pour le code suivant :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
     
     
    $html='
    <div class="table glossy">
    <table cellspacing="2" cellpadding="0" border="0" width="100%">
    <tbody>
    <tr class="top_th">
    </tr>
    <tr>
    <td class="side_th">Côte</td>
    <td>
    <img align="middle" alt="" src="/meteo/download/nl/128064/icon/16.gif"/>
    <span class="graden">6°</span>
    </td>
    <td>
    <img align="middle" alt="" src="/meteo/download/nl/128051/icon/14.gif"/>
    <span class="graden">5°/6°</span>
    </td>
    <td>
    <img align="middle" alt="" src="/meteo/download/nl/127995/icon/3.gif"/>
    <span class="graden">1°/4°</span>
    </td>
    <td>
    <img align="middle" alt="" src="/meteo/download/nl/128064/icon/16.gif"/>
    <span class="graden">2°/7°</span>
    </td>
    </tr>
    ';

    Qu'est-ce que je dois mettre comme regex dans mon preg_match pour récupérer les températures (donc 6°, 5°/6°, ...) ?

    D'avance merci

  7. #7
    Modérateur
    Avatar de blueice
    Homme Profil pro
    Développeur Web
    Inscrit en
    Mars 2003
    Messages
    3 487
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Mars 2003
    Messages : 3 487
    Points : 5 134
    Points
    5 134
    Par défaut
    Ben comme ca :
    Code php : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
     
    <?php
    $html = '<div class="table glossy">
    <table cellspacing="2" cellpadding="0" border="0" width="100%">
    <tbody>
    <tr class="top_th">
    </tr>
    <tr>
    <td class="side_th">Côte</td>
    <td>
    <img align="middle" alt="" src="/meteo/download/nl/128064/icon/16.gif"/>
    <span class="graden">6°</span>
    </td>
    <td>
    <img align="middle" alt="" src="/meteo/download/nl/128051/icon/14.gif"/>
    <span class="graden">5°/6°</span>
    </td>
    <td>
    <img align="middle" alt="" src="/meteo/download/nl/127995/icon/3.gif"/>
    <span class="graden">1°/4°</span>
    </td>
    <td>
    <img align="middle" alt="" src="/meteo/download/nl/128064/icon/16.gif"/>
    <span class="graden">2°/7°</span>
    </td>
    </tr>';
    preg_match_all('/<span class="graden">(.*)<\/span>/i', $html, $lines, PREG_PATTERN_ORDER);
    foreach ($lines[0] as $data) {
    echo $data.'<br />';
    }
    ?>
    -_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_SIGNATURE -_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-_-
    Dans la mesure du possible, essayez de montrer votre problème en situation réelle en nous donnant une url, que l'on puisse tester.
    Pensez également à cocher

    Aucun problème ne doit être résolu en MP (Message Privé) le forum est là pour ça.

    Dimension Internet

  8. #8
    Candidat au Club
    Inscrit en
    Janvier 2009
    Messages
    4
    Détails du profil
    Informations forums :
    Inscription : Janvier 2009
    Messages : 4
    Points : 2
    Points
    2
    Par défaut
    Ah ben oui tout simplement. Et moi qui galérais à tester des trucs super compliqués.

    Grand moment de solitude. lol

    Merci beaucoup.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Toutes versions] Extraire des données en ciblant des ID, dans le code source d'une page web ?
    Par Dan.exe dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 19/10/2014, 05h32
  2. Extraire des donnés d'un fichier texte
    Par sadsad dans le forum Langage
    Réponses: 2
    Dernier message: 07/02/2006, 15h09
  3. Réponses: 7
    Dernier message: 29/09/2005, 10h19
  4. Réponses: 1
    Dernier message: 28/09/2005, 15h35
  5. extraire des données d'un code HTML
    Par blueice dans le forum Langage
    Réponses: 5
    Dernier message: 19/08/2004, 19h41

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo