Bonjour,

Je souhaiterais parser une page web pour récupérer des données dessus.
Or, il n'y a pas de xml dans le code de cette page.
Avez vous une méthode ou une librarie à me conseiller ?
Faut-il convertir le HTML en xml puis parser ou bien parser directement le HTML ?

Il est à noter que les informations qui m'interessent sont toutes dans des tableaux.

comment faire ? A l'aide d'expressions régulières ou avec une librairie spécialisée ?
(j'ai vu http://nicolasj.developpez.com/articles/regex/)

En effet il ya plein de balises supplémentaires entre les <td "blabla">text</td>

Je compte garder les informations textuelles (text) et non leur mise en forme ("blabla"). Elle vont etre entrées dans une base de donnée.

Merci