HTMLParser et problème avec le nombre de requètes

Version imprimable

Bonjour,
J'utilise la classe HTMLParser (org.htmlparser) pour récupérer des informations sur un site internet.

Mon problème est que je n'arrive pas à utiliser un seul et même parser pour récupérer plusieurs informations sur la page en question !

Je m'explique avec deux exemples :

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
 
   String url;
 
   public MaClasse(String url) {
        this.url = url;
    }
 
   public void get1() {
        try {
 
            Parser parserFiche = new Parser(url);
 
            // Mon premier filtre
            NodeFilter filter1 =
                    new AndFilter(new TagNameFilter("h2"),
                    new HasParentFilter(new TagNameFilter("td")));
 
            NodeList nl = parserFiche.extractAllNodesThatMatch(filter1);
            NodeIterator i = nl.elements();
            while(i.hasMoreNodes()) {
                Node courant = i.nextNode();
                // Boucle sur les différentes réponses
            }
        } catch (Exception e) {
            System.out.println("Erreur : " + e);
        }
    }
 
   public void get2() {
        try {
 
            Parser parserFiche = new Parser(url);
 
            // Mon deuxieme filtre
            NodeFilter filter2 =
                    new AndFilter(new TagNameFilter("html"),
                    new HasParentFilter(new TagNameFilter("body")));
 
            NodeList nl = parserFiche.extractAllNodesThatMatch(filter2);
            NodeIterator i = nl.elements();
            while(i.hasMoreNodes()) {
                Node courant = i.nextNode();
                // Boucle sur les différentes réponses
            }
        } catch (Exception e) {
            System.out.println("Erreur : " + e);
        }
    }

Cette méthode fonctionne, mais le problème est que la même page (url) sera appelé plusieurs fois (si je me trompe pas ?????).
Donc si j'ai besoin de 50 infos sur la page (donc 50 méhodes "get"), la page sera récupéré 50 fois, ce qui est plus long, moins logique, et cela "spam" le site web (50 requêtes sur la même page)

C'est pour cela qu'il est plus logique de faire ceci :

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
 
   Parser parserFiche;
 
   public MaClasse(String url) {
        this.parserFiche = new Parser(url);
    }
 
   public void get1() {
        try {
 
            // Mon premier filtre
            NodeFilter filter1 =
                    new AndFilter(new TagNameFilter("h2"),
                    new HasParentFilter(new TagNameFilter("td")));
 
            NodeList nl = parserFiche.extractAllNodesThatMatch(filter1);
            NodeIterator i = nl.elements();
            while(i.hasMoreNodes()) {
                Node courant = i.nextNode();
                // Boucle sur les différentes réponses
            }
        } catch (Exception e) {
            System.out.println("Erreur : " + e);
        }
    }
 
   public void get2() {
        try {
 
            // Mon deuxieme filtre
            NodeFilter filter2 =
                    new AndFilter(new TagNameFilter("html"),
                    new HasParentFilter(new TagNameFilter("body")));
 
            NodeList nl = parserFiche.extractAllNodesThatMatch(filter2);
            NodeIterator i = nl.elements();
            while(i.hasMoreNodes()) {
                Node courant = i.nextNode();
                // Boucle sur les différentes réponses
            }
        } catch (Exception e) {
            System.out.println("Erreur : " + e);
        }
    }

Cette façon de faire est bien plus propre et bien plus logique, mais le problème c'est que cela fonctionne pour la première méthode get qui sera appelé, mais dès que l'on appelle une deuxième méthode get (peu importe laquelle) cela ne fonctionne plus (on ne peux pas récupérer une deuxième liste de node avec un autre filtre apparemment).

Si quelqu'un à la moindre information, cela m'intéresse fortement, car je ne sait pas du tout comment cela se fait, et encore moins comment y remédier sans utiliser la première méthode qui fonctionne).

Merci par avance ! Et bonne année à tous !

05/01/2010, 00h50
thelvin

Je connais pas cette bibliothèque. J'ai jeté un œil rapide à l'API proposée, et ça m'a pas l'air très pratique pour tout. Notamment pas pour ce dont tu as besoin.

Mais bref : puisqu'apparemment tu ne peux pas parser plusieurs fois sans faire plusieurs appels à l'URL, alors ne le fais pas. Trois solutions :
- Récupère la page à l'URL en question, stocke-là en mémoire, et parse plutôt ça.
- N'applique pas de filtre de parsing. Appelle juste Parser.parse(), avec un NodeFilter null, ce qui a pour effet de renvoyer un objet représentant la page entière. Stocke-le et fais tes recherches là-dedans (j'admets, ça n'a pas l'air bien prévu pour.)
- Appelle plutôt Parser.visitAllNodesWith() avec un NodeVisitor capable de chercher toutes les infos dont tu as besoin. Je n'ai pas trouvé de classe fournie pour composer différents NodeVisitors ou simplifier la recherche d'un nœud précis, mais ça n'a pas l'air compliqué à faire.

Hm. Je ne connais pas de bibliothèque pour parser du HTML non-XML... Mais j'en chercherais une autre.
05/01/2010, 10h59
frremu

Merci pour l'aide malgré que tu ne connaisses pas l'API, c'est gentil !
Dans les trois solutions que tu proposes je pense que la première est la plus pratique pour le moment.
Est-ce que quelqu'un ici à déjà utilisé l'API ? Si oui comment vous avez fait pour mon 'problème' ?
D'après mes recherches cet API est le plus utilisé pour parser du HTML non-XML comme tu le précise...
Encore merci !
14/01/2010, 17h17
Chavenay

Tidy

http://tidy.sourceforge.net/
14/01/2010, 18h15
frremu

Pouvez vous développer votre message s'il vous plait ?
Merci par avance
27/01/2010, 21h58
frremu

UP SvP
12/02/2010, 23h36
Geeks_lettres

aide programmation

bonjour, je me permets d'ajouter mon grain de sel dans la conversation pour vous diriger vers l'article que vient de rédiger mon frère Mimie sur mon blog : "Récupérer le détail d’une carte Magic the Gathering avec un parseur HTML" qui devrait vous être utile - En espérant avoir aidé, Greg. (lien ici : http://desgeeksetdeslettres.com/blog...n-parseur-html )
29/06/2010, 15h18
sampaiX

vous pouvez me dire ou vous avez trouver cette librairie pour que je puisse la telecharger?