Bonjour,
Je souhaite récupérer des données dans une page html. Les pages que je récupère semblent être bien formées pour pouvoir être utilisées comme du xml et donc les parcourir via DOM ou SAX.
Cependant ayant lu la faq et les exemples de documents bien/mal formés qui l'accompagne, il me reste un petit doute, est-ce que ceci est bien formé par exemple?
Ici le contenu de la balise1 est complètement éclaté entre les balises filles de balise1, le document est-il quand même bien formé? Dans ce cas là, qu'est-ce qui est considéré comme le contenu de la balise1?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10 <balise1> un peu de texte <balise2 /> encore un peu de texte <balise3> texte de la balise 3 </balise3> la fin du texte de la balise1 </balise1>
On rencontre ca un peu partout dans des pages html en fait, si on considère que <balise2 /> = <br /> et <balise3> = <a>, on se rend compte à quel point!!
Partager