IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

API standards et tierces Java Discussion :

[Parser HTML] quel parser utiliser pour du HTML 4.0 ?


Sujet :

API standards et tierces Java

  1. #1
    Membre à l'essai
    Inscrit en
    Août 2002
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Août 2002
    Messages : 29
    Points : 21
    Points
    21
    Par défaut [Parser HTML] quel parser utiliser pour du HTML 4.0 ?
    Bonjour,

    Actuellement je parse du HTML avec HTMLEditorKit.ParserCallback mais le pb c'est que ce parser ne supporte que du html v 3.2 avec quelques extensions.

    Connaissez vous des parsers que supportent le HTML 4.0 et plus ?

    NB : J' ai besoin du parser pour recuperer le texte contenu dans la page web sans les balises, pour cela j'ai juste imlemente la fct
    [code]public void handleText(char[] data, int pos)[/cpode]
    de HTMLEditorKit.ParserCallback.

    Merci de votre aide .

  2. #2
    Membre habitué
    Avatar de Tifauv'
    Profil pro
    Inscrit en
    Mars 2002
    Messages
    102
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2002
    Messages : 102
    Points : 129
    Points
    129
    Par défaut
    Pour le XHTML 1.0 et +, tu peux utiliser n'importe quel parser XML.
    Mais HTML 4.01 je ne sais pas
    - Un pointeur, c'est comme un fusil chargé mal reglé avec la gachette qui s'appuie toute seule des fois.
    - Nan nan nan ça c'est le C. Un pointeur, c'est la même chose, mais avec le Quad Damage.

  3. #3
    Membre éprouvé

    Profil pro
    Inscrit en
    Juin 2004
    Messages
    882
    Détails du profil
    Informations personnelles :
    Localisation : Suisse

    Informations forums :
    Inscription : Juin 2004
    Messages : 882
    Points : 948
    Points
    948
    Par défaut
    Tu peux utiliser Xerces de la communaute Apache disponible sur
    http://wml.apache.org

    C est un tres bon parser, facile a utiliser

    bye

    Sun Certified Business Component Developer
    Sun Certified Java Programmer
    --
    The definitive toolbox for GWT applications: gwt-toolbox
    My blog about Java and JEE: Benjamin's Blog

  4. #4
    Membre à l'essai
    Inscrit en
    Août 2002
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Août 2002
    Messages : 29
    Points : 21
    Points
    21
    Par défaut
    Merci de vos reponse mais un truc me chagrinne.

    html n'est pas xml, le html autorise les balises uniques (les balises qui ne se ferment pas) j'ai peur qu'en utlisant un parser xml cela pose des problemes.

    Est ce que j'ai tord ?

    Merci de votre aide

  5. #5
    Membre à l'essai
    Inscrit en
    Août 2002
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Août 2002
    Messages : 29
    Points : 21
    Points
    21
    Par défaut
    C'est bon j'ai trouve ce qu'il me fallait .

    Pour ceux que sa interresse voila :
    http://htmlparser.sourceforge.net/

    Il y a deja une classe qui permet de recuperer le texte des pages web :
    org.htmlparser.parserapplications.StringExtractor

    @++ et merci

  6. #6
    Nouveau membre du Club
    Inscrit en
    Juillet 2004
    Messages
    48
    Détails du profil
    Informations forums :
    Inscription : Juillet 2004
    Messages : 48
    Points : 34
    Points
    34
    Par défaut Passer l'authentification web.
    Bonjour,

    Merci deja pour ce parseur tres interressent.
    J'aurais une autre question, y'aurait il un moyen de justement lire le code d'une page web, mais apres avoir passer une authentification ?
    Actuellement j'arrive a m'authentifier directement a partir du logiciel, mais en lancant simplement une page web avec du code javascript pour lancer le formulaire avec les bons identifiants, et j'arrive sur la bonne page que je veux parser.
    Comment faire pour obtenir cette page directement par programmation ?

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [simple html dom] Parser les premiers blocs d'une source html
    Par Marmotton76 dans le forum Bibliothèques et frameworks
    Réponses: 0
    Dernier message: 21/09/2014, 09h17
  2. [W3C] W3C quel version de html et css utiliser pour être optimal
    Par xess91 dans le forum Balisage (X)HTML et validation W3C
    Réponses: 8
    Dernier message: 02/06/2009, 15h36
  3. [Debutant(e)]Quel composant utiliser pour faire une grille
    Par elitost dans le forum Composants
    Réponses: 7
    Dernier message: 21/06/2004, 20h44
  4. Réponses: 3
    Dernier message: 27/08/2003, 21h14
  5. Réponses: 2
    Dernier message: 11/07/2002, 08h31

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo