IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

avec Java Discussion :

Parser HTML avec JSoup


Sujet :

avec Java

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2013
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mai 2013
    Messages : 1
    Points : 1
    Points
    1
    Par défaut Parser HTML avec JSoup
    Bonjour,
    je suis en train de coder un Tag Cloud (Nuage de Mots Clés, http://fr.wikipedia.org/wiki/Nuage_de_mots-cl%C3%A9s), et j'ai besoin de parser une page internet, pour ne récupérer que les mots présents sur la page web.
    Pour cela je pensais utiliser le parser JSoup, que l'on m'a recommandé.
    Il me permet de récupérer le code HTML à partir d'une URL, mais je bloque sur la récupération des mots, sans les balises.
    Voici à quoi ressemble mon code pour le moment:



    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
     
    import java.io.IOException;
     
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
     
     
    public class HTMLDOM {
     
     
     
    	private static Document lireDocument(String url) {
     
     
    		try {
    			Document doc = Jsoup.connect(url).get();
    			return doc;
    		} catch (IOException e) {
    			e.printStackTrace();
    		}
     
    		return null;
    	}
     
     
     
    	/**
             * @param args
             */
    	public static void main(String[] args) {
    		// TODO Auto-generated method stub
    		Document doc = lireDocument("http://www.google.com");
    		System.out.println(doc.html());
    		//System.out.println(doc.select("body").first().html());
    //		DocumentBuilder docBuilder = null;
     
     
     
    		}
     
     
    	}
    Quelqu'un aurait il une idée ou un conseil?
    Merci d'avance!

  2. #2
    Membre expérimenté
    Avatar de yotta
    Homme Profil pro
    Technicien maintenance
    Inscrit en
    Septembre 2006
    Messages
    1 088
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Technicien maintenance
    Secteur : Industrie

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 088
    Points : 1 540
    Points
    1 540
    Par défaut
    Bonjour,

    Avez-vous lu le cookBook proposé sur la page d'accueil du site officiel de JSoup ? Dans la partie 8 "8.Extract attributes, text, and HTML from elements" vous trouverez les explications nécessaires...
    Une technologie n'est récalcitrante que par ce qu'on ne la connait et/ou comprend pas, rarement par ce qu'elle est mal faite.
    Et pour cesser de subir une technologie récalcitrante, n'hésitez surtout pas à visiter les Guides/Faq du site !

    Voici une liste non exhaustive des tutoriels qui me sont le plus familiers :
    Tout sur Java, du débutant au pro : https://java.developpez.com/cours/
    Tout sur les réseaux : https://reseau.developpez.com/cours/
    Tout sur les systèmes d'exploitation : https://systeme.developpez.com/cours/
    Tout sur le matériel : https://hardware.developpez.com/cours/

Discussions similaires

  1. Réponses: 4
    Dernier message: 14/05/2010, 15h41
  2. Réponses: 0
    Dernier message: 13/05/2010, 01h53
  3. parser un fichier HTML avec JAVA
    Par ouinih dans le forum EDI et Outils pour Java
    Réponses: 2
    Dernier message: 09/02/2009, 10h33
  4. Parser une page HTML avec du PHP
    Par Richard_Rahl dans le forum Langage
    Réponses: 9
    Dernier message: 19/08/2008, 15h36
  5. Parser un fichier HTML avec HtmlDocument
    Par Seth77 dans le forum C#
    Réponses: 2
    Dernier message: 13/08/2008, 07h52

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo