Parser HTML avec JSoup

**VictorienT** · 24/05/2013, 20h04

Bonjour,
je suis en train de coder un Tag Cloud (Nuage de Mots Clés, http://fr.wikipedia.org/wiki/Nuage_de_mots-cl%C3%A9s), et j'ai besoin de parser une page internet, pour ne récupérer que les mots présents sur la page web.
Pour cela je pensais utiliser le parser JSoup, que l'on m'a recommandé.
Il me permet de récupérer le code HTML à partir d'une URL, mais je bloque sur la récupération des mots, sans les balises.
Voici à quoi ressemble mon code pour le moment:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
 
import java.io.IOException;
 
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
 
 
public class HTMLDOM {
 
 
 
	private static Document lireDocument(String url) {
 
 
		try {
			Document doc = Jsoup.connect(url).get();
			return doc;
		} catch (IOException e) {
			e.printStackTrace();
		}
 
		return null;
	}
 
 
 
	/**
         * @param args
         */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		Document doc = lireDocument("http://www.google.com");
		System.out.println(doc.html());
		//System.out.println(doc.select("body").first().html());
//		DocumentBuilder docBuilder = null;
 
 
 
		}
 
 
	}

Quelqu'un aurait il une idée ou un conseil?
Merci d'avance!

**yotta** · 26/05/2013, 16h37

Bonjour,

Avez-vous lu le cookBook proposé sur la page d'accueil du site officiel de JSoup ? Dans la partie 8 "8.Extract attributes, text, and HTML from elements" vous trouverez les explications nécessaires...

Parser HTML avec JSoup

avec Java

Discussions similaires

Partager

Partager