Précédent   Forum des professionnels en informatique > PHP > Bibliothèques et frameworks > XML > DOM
DOM Forum d'entraide pour l'extension DOM permettant de manipuler des documents XML en PHP 5 (approche DOM). Avant de poster -> tutoriels DOM
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 12/05/2008, 18h16   #1
Invité de passage
 
Inscription : mai 2008
Messages : 3
Détails du profil
Informations forums :
Inscription : mai 2008
Messages : 3
Points : 1
Points : 1
Par défaut [DOM] fonction loadXML() sur du HTML

Bonjour,

J'essaye de parser une page web d'un site de bourse en ligne afin de récupérer des valeurs boursières.
J'ai particulièrement envie d'utiliser la bibliothèque DOM de Php, pour récupérer les chiffres qui sont entre des tags.
Malheureusement comme sur leur page il ne mettent pas les id des tags entre guillemets cela ne fonctionne pas.


J'utilise le code suivant pour parser la page :
$buffer contient le texte html de la page de la bourse, $buffer est obtenue avec curl.
Code :
1
2
3
    $dom = new DomDocument();
    $dom->loadXML($buffer);
    // ...


Ceci m'affiche les messages d'erreur :
Citation:
Warning: DOMDocument::loadXML() [function.DOMDocument-loadXML]: AttValue: " or ' expected in Entity, line: 156 in C:\Program Files\Wamp\www\DomTest\index.php on line 16

Warning: DOMDocument::loadXML() [function.DOMDocument-loadXML]: attributes construct error in Entity, line: 156 in C:\Program Files\Wamp\www\DomTest\index.php on line 16

Warning: DOMDocument::loadXML() [function.DOMDocument-loadXML]: Couldn't find end of Start Tag link line 156 in Entity, line: 5 in C:\Program Files\Wamp\www\DomTest\index.php on line 16

A la ligne 156 du code html de la page à parser il y a une balise qui est par exemple celle ci :
Code HTML :
    <td id=trs title=421>20.369</td>

Ici on a id=trs et non id="trs", ce qui est ... a mon avis la source du problème.

Or aucun id n'est entre guillemets dans la page.




Auriez-vous une solution à me proposer s'il vous plaît (à part l'utilisation des regex) ? Peut-être qu'un détail m'a échapé ??
Gabbiix est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 12/05/2008, 19h28   #2
En attente de confirmation mail
 
Inscription : juin 2002
Messages : 6 164
Détails du profil
Informations forums :
Inscription : juin 2002
Messages : 6 164
Points : 6 404
Points : 6 404
Et la méthode loadHTML[File]() ne serait-elle pas plus appropriée ?

Et, pour la parenthèse, dans la mesure où la fonctionnalité allow_url_fopen est active, il n'est peut être pas nécessaire de passer par cURL.
julp est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 12/05/2008, 20h10   #3
Invité de passage
 
Inscription : mai 2008
Messages : 3
Détails du profil
Informations forums :
Inscription : mai 2008
Messages : 3
Points : 1
Points : 1
Alors là je dis bravo !!!

loadHTML() dont j'ignorais l'existence est beaucoup plus appropriée !!! La prochaine fois je passerai plus de temps dans la doc PHP !

Pour cURL, je suis obligé de l'employer afin de me loguer automatiquement sur le site (envoi des variables POST).

Et merci d'avoir bougé mon post dans la bonne rubrique !

Pleins de bizoux virtuels, merci !
Gabbiix est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 12/05/2008, 21h13   #4
En attente de confirmation mail
 
Inscription : juin 2002
Messages : 6 164
Détails du profil
Informations forums :
Inscription : juin 2002
Messages : 6 164
Points : 6 404
Points : 6 404


Citation:
Envoyé par Gabbiix
Pour cURL, je suis obligé de l'employer afin de me loguer automatiquement sur le site (envoi des variables POST).
Il est possible de passer des données POST (entre autres) en redéfinissant les options de contexte du flux (voir l'exemple de la FAQ pour exemple).

(c'est juste à titre d'info)
julp est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 14/05/2008, 12h42   #5
Invité de passage
 
Inscription : mai 2008
Messages : 3
Détails du profil
Informations forums :
Inscription : mai 2008
Messages : 3
Points : 1
Points : 1
Ah ui ! c'est pas bête ca ! merci du tuyau
Gabbiix est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité Cette discussion est résolue.
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 16h32.


 
 
 
 
Partenaires

Hébergement Web