IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

Parsers HTML: lequel utiliser ?


Sujet :

Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 64
    Par défaut Parsers HTML: lequel utiliser ?
    Bonjour tout le monde!
    Je souhaite développer en Java une appli qui récupère des infos d'allocine.
    Pour ce faire, je parse la page de recherche mais mon code est assez ..."lourd et basique"....

    Que me conseilleriez vous comme API Java qui parse du HTML ?

    En effet, je pense que ca sera plus simple
    Mais je souhaite que cette API me permette aussi de récupérer des infos non contenues dans un code, mais entre deux balises...


    Merci d'avance !

  2. #2
    Membre Expert

    Homme Profil pro
    Architecte logiciel
    Inscrit en
    Novembre 2006
    Messages
    1 252
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Architecte logiciel
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 252
    Par défaut
    Neko est pas mal. Permet de retourner un doc html bien formé.

  3. #3
    Membre confirmé
    Profil pro
    Étudiant
    Inscrit en
    Avril 2006
    Messages
    133
    Détails du profil
    Informations personnelles :
    Âge : 41
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2006
    Messages : 133
    Par défaut
    je te conseille HTMLParser

    regarde dans la doc, il y a plein d'exemples.

    bon courage.

  4. #4
    Membre confirmé
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    64
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 64
    Par défaut
    J'ai tenté d'utiliser HTMLParser, je le trouve très bien.Seulement, je souhaite dans une partie de mon application extraire du texte entre deux balises



    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    <b>Films <h4>(33 réponses)</h4></b>
    Si l'on regarde cet exemple,je souhaite récupérer le texte "33 réponses".
    J'ai déja réussi à configurer pour récupérer uniquement certaines URL mais est ce possible de configurer un "intervalle de parsing" ?



    Pourrais tu m'aider?



    Merci beaucoup d'avance

  5. #5
    Membre éclairé

    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Août 2007
    Messages
    509
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux

    Informations forums :
    Inscription : Août 2007
    Messages : 509
    Par défaut
    Pourquoi tu n'utilises pas SAX?

  6. #6
    Membre Expert

    Homme Profil pro
    Architecte logiciel
    Inscrit en
    Novembre 2006
    Messages
    1 252
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Architecte logiciel
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 252
    Par défaut
    Par ce qu'il faut que l'html soit bien formé (balises concordantes entre autres), ce qui est loin d'être toujours le cas. C'est pourquoi je proposais Neko qui lui restitue un XML parfaitement bien formé.

Discussions similaires

  1. Parser du HTML en utilisant Java
    Par zaz147 dans le forum Format d'échange (XML, JSON...)
    Réponses: 7
    Dernier message: 02/09/2008, 12h57
  2. parser un fichier html en utilisant java
    Par taouja dans le forum Services Web
    Réponses: 1
    Dernier message: 16/04/2007, 10h12
  3. [HELP] Modélisation d'un parser HTML
    Par dazulu dans le forum Langages de programmation
    Réponses: 11
    Dernier message: 31/07/2006, 01h03
  4. [Parser HTML] quel parser utiliser pour du HTML 4.0 ?
    Par Cyber@l dans le forum API standards et tierces
    Réponses: 5
    Dernier message: 19/07/2004, 19h32

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo