HTMLParser et problème avec le nombre de requètes

**frremu** · 04/01/2010, 22h33

Bonjour,
J'utilise la classe HTMLParser (org.htmlparser) pour récupérer des informations sur un site internet.

Mon problème est que je n'arrive pas à utiliser un seul et même parser pour récupérer plusieurs informations sur la page en question !

Je m'explique avec deux exemples :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
 
   String url;
 
   public MaClasse(String url) {
        this.url = url;
    }
 
   public void get1() {
        try {
 
            Parser parserFiche = new Parser(url);
 
            // Mon premier filtre
            NodeFilter filter1 =
                    new AndFilter(new TagNameFilter("h2"),
                    new HasParentFilter(new TagNameFilter("td")));
 
            NodeList nl = parserFiche.extractAllNodesThatMatch(filter1);
            NodeIterator i = nl.elements();
            while(i.hasMoreNodes()) {
                Node courant = i.nextNode();
                // Boucle sur les différentes réponses
            }
        } catch (Exception e) {
            System.out.println("Erreur : " + e);
        }
    }
 
   public void get2() {
        try {
 
            Parser parserFiche = new Parser(url);
 
            // Mon deuxieme filtre
            NodeFilter filter2 =
                    new AndFilter(new TagNameFilter("html"),
                    new HasParentFilter(new TagNameFilter("body")));
 
            NodeList nl = parserFiche.extractAllNodesThatMatch(filter2);
            NodeIterator i = nl.elements();
            while(i.hasMoreNodes()) {
                Node courant = i.nextNode();
                // Boucle sur les différentes réponses
            }
        } catch (Exception e) {
            System.out.println("Erreur : " + e);
        }
    }

Cette méthode fonctionne, mais le problème est que la même page (url) sera appelé plusieurs fois (si je me trompe pas ?????).
Donc si j'ai besoin de 50 infos sur la page (donc 50 méhodes "get"), la page sera récupéré 50 fois, ce qui est plus long, moins logique, et cela "spam" le site web (50 requêtes sur la même page)

C'est pour cela qu'il est plus logique de faire ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
 
   Parser parserFiche;
 
   public MaClasse(String url) {
        this.parserFiche = new Parser(url);
    }
 
   public void get1() {
        try {
 
            // Mon premier filtre
            NodeFilter filter1 =
                    new AndFilter(new TagNameFilter("h2"),
                    new HasParentFilter(new TagNameFilter("td")));
 
            NodeList nl = parserFiche.extractAllNodesThatMatch(filter1);
            NodeIterator i = nl.elements();
            while(i.hasMoreNodes()) {
                Node courant = i.nextNode();
                // Boucle sur les différentes réponses
            }
        } catch (Exception e) {
            System.out.println("Erreur : " + e);
        }
    }
 
   public void get2() {
        try {
 
            // Mon deuxieme filtre
            NodeFilter filter2 =
                    new AndFilter(new TagNameFilter("html"),
                    new HasParentFilter(new TagNameFilter("body")));
 
            NodeList nl = parserFiche.extractAllNodesThatMatch(filter2);
            NodeIterator i = nl.elements();
            while(i.hasMoreNodes()) {
                Node courant = i.nextNode();
                // Boucle sur les différentes réponses
            }
        } catch (Exception e) {
            System.out.println("Erreur : " + e);
        }
    }

Cette façon de faire est bien plus propre et bien plus logique, mais le problème c'est que cela fonctionne pour la première méthode get qui sera appelé, mais dès que l'on appelle une deuxième méthode get (peu importe laquelle) cela ne fonctionne plus (on ne peux pas récupérer une deuxième liste de node avec un autre filtre apparemment).

Si quelqu'un à la moindre information, cela m'intéresse fortement, car je ne sait pas du tout comment cela se fait, et encore moins comment y remédier sans utiliser la première méthode qui fonctionne).

Merci par avance ! Et bonne année à tous !

**thelvin** · 05/01/2010, 00h50

Je connais pas cette bibliothèque. J'ai jeté un œil rapide à l'API proposée, et ça m'a pas l'air très pratique pour tout. Notamment pas pour ce dont tu as besoin.

Mais bref : puisqu'apparemment tu ne peux pas parser plusieurs fois sans faire plusieurs appels à l'URL, alors ne le fais pas. Trois solutions :
- Récupère la page à l'URL en question, stocke-là en mémoire, et parse plutôt ça.
- N'applique pas de filtre de parsing. Appelle juste Parser.parse(), avec un NodeFilter null, ce qui a pour effet de renvoyer un objet représentant la page entière. Stocke-le et fais tes recherches là-dedans (j'admets, ça n'a pas l'air bien prévu pour.)
- Appelle plutôt Parser.visitAllNodesWith() avec un NodeVisitor capable de chercher toutes les infos dont tu as besoin. Je n'ai pas trouvé de classe fournie pour composer différents NodeVisitors ou simplifier la recherche d'un nœud précis, mais ça n'a pas l'air compliqué à faire.

Hm. Je ne connais pas de bibliothèque pour parser du HTML non-XML... Mais j'en chercherais une autre.

**frremu** · 05/01/2010, 10h59

Merci pour l'aide malgré que tu ne connaisses pas l'API, c'est gentil !
Dans les trois solutions que tu proposes je pense que la première est la plus pratique pour le moment.
Est-ce que quelqu'un ici à déjà utilisé l'API ? Si oui comment vous avez fait pour mon 'problème' ?
D'après mes recherches cet API est le plus utilisé pour parser du HTML non-XML comme tu le précise...
Encore merci !

HTMLParser et problème avec le nombre de requètes

API standards et tierces Java

Vue hybride

Discussions similaires

Partager

Partager