IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

avec Java Discussion :

Parser page HTML en java


Sujet :

avec Java

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Janvier 2010
    Messages
    157
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2010
    Messages : 157
    Points : 67
    Points
    67
    Par défaut Parser page HTML en java
    Bonjour,

    Je réalise un projet en JAVA, pour cela je dois d'abord récupérer des information à partir du web. J'ai pu réaliser la connexion avec la page web et récupérer les code source HTML dans un objet BufferReader. Et cela fonctionne bien. Maintenant je voudrais savoir comment extraire des données à partir des ligne de codes par exemple.

    quand je lie la ligne de code suivante:
    <TD><a class="normal" href="2003-resultat.html">résultat match</a></TD>

    Je voudrais savoir comment extraire "résultat match" de cette ligne de code. Je devrait d'ailleurs extraire plusieurs information du genre dans tout le code source

    Merci

  2. #2
    Membre éclairé
    Homme Profil pro
    Inscrit en
    Octobre 2004
    Messages
    398
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2004
    Messages : 398
    Points : 710
    Points
    710
    Par défaut
    Citation Envoyé par nassim1987 Voir le message
    Bonjour,

    Je réalise un projet en JAVA, pour cela je dois d'abord récupérer des information à partir du web. J'ai pu réaliser la connexion avec la page web et récupérer les code source HTML dans un objet BufferReader. Et cela fonctionne bien. Maintenant je voudrais savoir comment extraire des données à partir des ligne de codes par exemple.

    quand je lie la ligne de code suivante:
    <TD><a class="normal" href="2003-resultat.html">résultat match</a></TD>

    Je voudrais savoir comment extraire "résultat match" de cette ligne de code. Je devrait d'ailleurs extraire plusieurs information du genre dans tout le code source

    Merci
    perso, j'utiliserais StringUtils, et les méthodes substringAfter et substringBefore

    mais si quelqu'un propose mieux ça m'interesse

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Janvier 2010
    Messages
    157
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2010
    Messages : 157
    Points : 67
    Points
    67
    Par défaut
    J'ai trouvé des truc en utilisant StringTochnizer et la méthode split mais je sais pas vraiment comment les utiliser pour retrouver les mots que je recherche

  4. #4
    Membre éclairé
    Homme Profil pro
    Inscrit en
    Octobre 2004
    Messages
    398
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2004
    Messages : 398
    Points : 710
    Points
    710
    Par défaut
    Citation Envoyé par nassim1987 Voir le message
    J'ai trouvé des truc en utilisant StringTochnizer et la méthode split mais je sais pas vraiment comment les utiliser pour retrouver les mots que je recherche
    telecharge la librairie commons-lang d'Apache ici :
    http://commons.apache.org/proper/commons-lang//

    ensuite tu pourras faire :
    String s = "<TD><a class=\"normal\" href=\"2003-resultat.html\">résultat match</a></TD>";
    s = StringUtils.substringBefore(s, "</a>");
    ....

  5. #5
    Membre actif Avatar de hbennou
    Homme Profil pro
    Développeur Java
    Inscrit en
    Mai 2008
    Messages
    162
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Java
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2008
    Messages : 162
    Points : 205
    Points
    205
    Par défaut
    Bonsoir,

    Si tu peux encore faire marche arrière je te conseille d'utiliser l'api selenium pour ce genre de manipulation, mais il faut utiliser selenium server pour pouvoir lancer le navigateur et ouvrir la page web surlaquelle tu vas récupérer tes données.

    selenium.getText(String locator): ca ramène le texte qui est entre un tag donné.

  6. #6
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2011
    Messages
    442
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mai 2011
    Messages : 442
    Points : 417
    Points
    417
    Par défaut
    Je pense que c'est quand même mieux d'utiliser un parser HTML. Tu peux utiliser JSoup qui est assez léger et très simple d'utilisation (surtout si tu as déjà fait un peu de web).

  7. #7
    Membre actif
    Homme Profil pro
    Développeur Java / JEE
    Inscrit en
    Février 2008
    Messages
    185
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur Java / JEE

    Informations forums :
    Inscription : Février 2008
    Messages : 185
    Points : 293
    Points
    293
    Par défaut
    Bonjour,

    Moi j'utilise des expressions régulières. C'est pas forcément le plus facile à comprendre mais ça permet pas mal de souplesse pour gérer les cas particuliers. La classe Pattern de Java est bien documentée et tu trouveras de très bons tutoriels sur developpez.com.

    Mathieu

  8. #8
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 551
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 551
    Points : 21 607
    Points
    21 607
    Par défaut
    Citation Envoyé par Influenza Voir le message
    Moi j'utilise des expressions régulières. C'est pas forcément le plus facile à comprendre mais ça permet pas mal de souplesse pour gérer les cas particuliers. La classe Pattern de Java est bien documentée et tu trouveras de très bons tutoriels sur developpez.com.
    C'est toujours mieux que du substringBefore et substringAfter, mais enfin, ça remplace pas un vrai parseur.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  9. #9
    Membre éclairé
    Homme Profil pro
    Inscrit en
    Octobre 2004
    Messages
    398
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2004
    Messages : 398
    Points : 710
    Points
    710
    Par défaut
    Citation Envoyé par thelvin Voir le message
    C'est toujours mieux que du substringBefore et substringAfter, mais enfin, ça remplace pas un vrai parseur.
    ah ouais je connaissais pas JSoup tiens

    par contre pour un débutant puisque c'est la section débutant, ça me paraissant plus rapide d'utiliser des substringBefore Last plutôt que de se lancer dans les regexp ...

  10. #10
    Expert éminent sénior
    Avatar de Auteur
    Profil pro
    Inscrit en
    Avril 2004
    Messages
    7 647
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 7 647
    Points : 11 136
    Points
    11 136
    Par défaut
    bonjour,

    parser un document HTML c'est comme parser un document XML, non ? Dans ce cas pourquoi ne pas utiliser des fonctions java qui permettent de manipuler le XML ?
    http://java.developpez.com/faq/xml/

  11. #11
    Expert éminent sénior
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 481
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 481
    Points : 48 806
    Points
    48 806
    Par défaut
    Citation Envoyé par Auteur Voir le message
    bonjour,

    parser un document HTML c'est comme parser un document XML, non ?

    Malheureusement, ça suppose que la page web ne contienne pas d'erreur

  12. #12
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 551
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 551
    Points : 21 607
    Points
    21 607
    Par défaut
    Citation Envoyé par tchize_ Voir le message
    Malheureusement, ça suppose que la page web ne contienne pas d'erreur
    Plus que ça. Il y a bien plus de règles à respecter en XML qu'en HTML.
    C'est vrai que Java propose un parseur HTML qui, du coup, suppose juste qu'il n'y a pas d'erreur de HTML, mais c'est bien plus large qu'un parseur XML.

    Et Jsoup, lui, supporte encore bien plus de pages du monde réel.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

Discussions similaires

  1. [jQuery Mobile] Dans une page HTML en Java
    Par ib.sissoko dans le forum Composants graphiques
    Réponses: 10
    Dernier message: 04/02/2014, 09h57
  2. Appel d'une page html en java
    Par ndoma dans le forum Wicket
    Réponses: 1
    Dernier message: 02/07/2010, 11h05
  3. Afficher une page html en java
    Par fonfek24 dans le forum Interfaces Graphiques en Java
    Réponses: 6
    Dernier message: 20/10/2009, 10h06
  4. changer le code d'une page html avec java
    Par fraisa1985 dans le forum Général Java
    Réponses: 2
    Dernier message: 13/03/2008, 12h29
  5. [Html] HTMLPARSER pour parser du html en Java
    Par alexthomas dans le forum API standards et tierces
    Réponses: 2
    Dernier message: 01/09/2005, 21h11

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo