Bonjour,
je suis en train de coder un Tag Cloud (Nuage de Mots Clés, http://fr.wikipedia.org/wiki/Nuage_de_mots-cl%C3%A9s), et j'ai besoin de parser une page internet, pour ne récupérer que les mots présents sur la page web.
Pour cela je pensais utiliser le parser JSoup, que l'on m'a recommandé.
Il me permet de récupérer le code HTML à partir d'une URL, mais je bloque sur la récupération des mots, sans les balises.
Voici à quoi ressemble mon code pour le moment:
Quelqu'un aurait il une idée ou un conseil?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42 import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class HTMLDOM { private static Document lireDocument(String url) { try { Document doc = Jsoup.connect(url).get(); return doc; } catch (IOException e) { e.printStackTrace(); } return null; } /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub Document doc = lireDocument("http://www.google.com"); System.out.println(doc.html()); //System.out.println(doc.select("body").first().html()); // DocumentBuilder docBuilder = null; } }
Merci d'avance!
Partager