Parseur HTML C++

**Trunks** · 04/05/2010, 16h23

Bonjour,

Que me conseillez-vous comme parseur HTML afin d'extraire des données d'une page web?

Merci

**JulienDuSud** · 05/05/2010, 00h27

http://tinyurl.com/2e9p6yn

**epsilon68** · 09/05/2010, 11h43

QtWebKit?

**cs_ntd** · 09/05/2010, 16h46

Ou n'importe quelle parser XML, ça dépend si tu veux aussi t'occuper du rendu...

**jblecanard** · 10/05/2010, 14h17

Salut

Ca dépend aussi de la robustesse du HTML entré. Un parseur XML va sortir en erreur au moindre pet de travers, alors qu'un parseur HTML bien conçu peut être tolérant à certaines erreurs. Trunks n'est pas forcément l'auteur du HTML utilisé et n'a donc pas forcément la main sur la qualité du HTML en question...

Il y a Tidy qui utilisé en lib, peut être utile. Ce n'est plus très maintenu mais parce que pas mal stable il me semble.

**Trunks** · 10/05/2010, 17h39

Envoyé par cs_ntd

Ou n'importe quelle parser XML, ça dépend si tu veux aussi t'occuper du rendu...

Seulement si le code HTML est bien formé (comme l'a précisé jblecanard) et sur le net, il y a malheureusement énormément de pages mal formées.

En effet, il y a la librairie libtidy qui permet de réparer le code mal formé (jusqu'à une certaine limite) qui pourrait permettre d'utiliser un parser xml quelconque (xerces-c++, arabica, libxml-c++, tinyxml, rapidxml, ..).

J'ai vu que libxml (version c) avait un module HTMLParse qui permettait de parser une page HTML mal formée, mais que ce module n'était pas testé.

Perso, j'ai testé Boost.PropertyTree, mais j'ai des problème de compilation et d'utilisation.

Je pense que le mieux reste d'utiliser Tidy Html en espérant que ça répare bien les pages et qu'ensuite j'utilise le parser xml de mon choix.