IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C++ Discussion :

Parseur HTML C++


Sujet :

C++

  1. #1
    Membre averti Avatar de Trunks
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Mai 2004
    Messages
    534
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Mai 2004
    Messages : 534
    Points : 412
    Points
    412
    Par défaut Parseur HTML C++
    Bonjour,

    Que me conseillez-vous comme parseur HTML afin d'extraire des données d'une page web?

    Merci

  2. #2
    Membre confirmé
    Inscrit en
    Août 2004
    Messages
    556
    Détails du profil
    Informations forums :
    Inscription : Août 2004
    Messages : 556
    Points : 588
    Points
    588

  3. #3
    Membre expérimenté
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    1 354
    Détails du profil
    Informations personnelles :
    Âge : 48
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 1 354
    Points : 1 419
    Points
    1 419
    Par défaut
    QtWebKit?

  4. #4
    Membre éprouvé Avatar de cs_ntd
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Décembre 2006
    Messages
    598
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2006
    Messages : 598
    Points : 1 214
    Points
    1 214
    Par défaut
    Ou n'importe quelle parser XML, ça dépend si tu veux aussi t'occuper du rendu...

    The magic of Opera, La magie de l'Opera
    The mysteries of Space Opera, Les mystères de l'Opera Spatial
    Mr. Know-it-all, M. Je-Sais-Tout
    Prelude in C sharp minor, the most beautiful piano song and the best C sharp prelude ever, Prélude en do dièse mineur, le plus beau morceau de piano et le meilleur prélude au C#
    The Mesmerizing Saphir Division for Nerds, L'Hypnotisante Division Saphire pour les Nerds (HDSN)

  5. #5
    Membre expert
    Profil pro
    Inscrit en
    Mars 2007
    Messages
    1 415
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mars 2007
    Messages : 1 415
    Points : 3 156
    Points
    3 156
    Par défaut
    Salut

    Ca dépend aussi de la robustesse du HTML entré. Un parseur XML va sortir en erreur au moindre pet de travers, alors qu'un parseur HTML bien conçu peut être tolérant à certaines erreurs. Trunks n'est pas forcément l'auteur du HTML utilisé et n'a donc pas forcément la main sur la qualité du HTML en question...

    Il y a Tidy qui utilisé en lib, peut être utile. Ce n'est plus très maintenu mais parce que pas mal stable il me semble.
    Find me on github

  6. #6
    Membre averti Avatar de Trunks
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Mai 2004
    Messages
    534
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Mai 2004
    Messages : 534
    Points : 412
    Points
    412
    Par défaut
    Citation Envoyé par cs_ntd Voir le message
    Ou n'importe quelle parser XML, ça dépend si tu veux aussi t'occuper du rendu...
    Seulement si le code HTML est bien formé (comme l'a précisé jblecanard) et sur le net, il y a malheureusement énormément de pages mal formées.

    En effet, il y a la librairie libtidy qui permet de réparer le code mal formé (jusqu'à une certaine limite) qui pourrait permettre d'utiliser un parser xml quelconque (xerces-c++, arabica, libxml-c++, tinyxml, rapidxml, ..).

    J'ai vu que libxml (version c) avait un module HTMLParse qui permettait de parser une page HTML mal formée, mais que ce module n'était pas testé.

    Perso, j'ai testé Boost.PropertyTree, mais j'ai des problème de compilation et d'utilisation.

    Je pense que le mieux reste d'utiliser Tidy Html en espérant que ça répare bien les pages et qu'ensuite j'utilise le parser xml de mon choix.

  7. #7
    Membre expérimenté
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    1 354
    Détails du profil
    Informations personnelles :
    Âge : 48
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 1 354
    Points : 1 419
    Points
    1 419
    Par défaut
    pourquoi ne pas utiliser HtmlBrowser (.NET) ou QtWebKit (Qt/C++)?
    c'est le meilleur parseur que vous pourrez jamais obtenir...

  8. #8
    Membre averti Avatar de Trunks
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Mai 2004
    Messages
    534
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Mai 2004
    Messages : 534
    Points : 412
    Points
    412
    Par défaut
    Citation Envoyé par epsilon68 Voir le message
    pourquoi ne pas utiliser HtmlBrowser (.NET) ou QtWebKit (Qt/C++)?
    c'est le meilleur parseur que vous pourrez jamais obtenir...
    Je ne connaissais pas, je vais y jeter un oeil

    Merci

Discussions similaires

  1. developpement application (parseur html, download)
    Par Neilime05 dans le forum Langage
    Réponses: 10
    Dernier message: 11/06/2009, 09h13
  2. Parseur HTML en java
    Par HBrayan dans le forum Général Java
    Réponses: 4
    Dernier message: 21/07/2008, 13h29
  3. problem Parseur html
    Par taouja dans le forum Services Web
    Réponses: 1
    Dernier message: 24/04/2007, 16h04
  4. Faire un parseur html
    Par titoff dans le forum Général JavaScript
    Réponses: 1
    Dernier message: 20/12/2005, 13h03
  5. Existe t-il un parseur HTML pou extraire des informations?
    Par danje dans le forum API standards et tierces
    Réponses: 1
    Dernier message: 31/10/2005, 11h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo