Récupérations des données à partir du HTML [C]

**amo-said** · 24/02/2011, 09h31

Bonjour,

Je souhaiterais parser une page web pour récupérer des données dessus.
Or, il n'y a pas de xml dans le code de cette page.
Avez vous une méthode ou une librarie à me conseiller ?
Faut-il convertir le HTML en xml puis parser ou bien parser directement le HTML ?

Il est à noter que les informations qui m'interessent sont toutes dans des tableaux.

comment faire ? A l'aide d'expressions régulières ou avec une librairie spécialisée ?
(j'ai vu http://nicolasj.developpez.com/articles/regex/)

En effet il ya plein de balises supplémentaires entre les <td "blabla">text</td>

Je compte garder les informations textuelles (text) et non leur mise en forme ("blabla"). Elle vont etre entrées dans une base de donnée.

Merci

**LittleWhite** · 25/02/2011, 10h03

Bonjour,

J'ai rencontré le même genre de problème et je dois dire qu'il y a deux possibilités qui ce sont offertes à moi:
- Réclamer au créateur de la page web de fournir un fichier XML avec les données afin que des clients tiers puissent se connecter ... bon faut être ami avec le développeur du site

- Faire une analyse à la main (notamment avec les Regex). Le problème de cette méthode, c'est que si la page est modifié, il y a de grand risque que plus rien ne fonctionne.

Malheureusement, je ne connais pas d'autre méthode (à part afficher la page web directement

)

**Obsidian** · 25/02/2011, 10h52

Envoyé par LittleWhite

- Réclamer au créateur de la page web de fournir un fichier XML avec les données afin que des clients tiers puissent se connecter ... bon faut être ami avec le développeur du site

- Faire une analyse à la main (notamment avec les Regex). Le problème de cette méthode, c'est que si la page est modifié, il y a de grand risque que plus rien ne fonctionne.

Malheureusement, je ne connais pas d'autre méthode (à part afficher la page web directement

)

C'est entre autres pour cela que le XHtml a été défini. Une page valide XHtml doit pouvoir être analysée avec un parser XML. Et si les bonnes entitées ont été repérées comme il se doit avec l'attribut « id », ça devient simple.

Maintenant, les sites entièrement valides ne sont pas légion.

Récupérations des données à partir du HTML [C]

C

Vue hybride

Discussions similaires

Partager

Partager