Bonjour,
Je souhaiterais parser une page web pour récupérer des données dessus.
Or, il n'y a pas de xml dans le code de cette page.
Avez vous une méthode ou une librarie à me conseiller ?
Faut-il convertir le HTML en xml puis parser ou bien parser directement le HTML ?
Il est à noter que les informations qui m'interessent sont toutes dans des tableaux.
comment faire ? A l'aide d'expressions régulières ou avec une librairie spécialisée ?
(j'ai vu http://nicolasj.developpez.com/articles/regex/)
En effet il ya plein de balises supplémentaires entre les <td "blabla">text</td>
Je compte garder les informations textuelles (text) et non leur mise en forme ("blabla"). Elle vont etre entrées dans une base de donnée.
Merci
Partager