Erreur, Parser : récupérer les liens d'une page html

**floflo_2006** · 07/12/2006, 18h46

Bonjour,

J'ai un problème pour récupérer les liens d'un fichier html.

Alors tout d'abord je récupère le code de la page sur internet à partir de son URL. Ensuite je l'enregistre dans un fichier. Jusque là tout va bien. Ensuite je veux récupérer les liens de cette page et c'est là que ca bloque pour certaines pages seulement (pour certaine ca marche, pour d'autres non !!!!).

Voici un peu de code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
 
public class MonParser extends ParserCallback {
 
	public void handleStartTag(Tag tag, MutableAttributeSet attrSet, int pos) {
		System.out.println(tag.toString() + attrSet.toString());
 
	}
 
}

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
private MonParser parser = new MonParser();
 
 
 
				System.out.println("DEBUT");
 
				/*.......   différents traitements pour recuperer le fichier par son url    */
 
				// le fichier
				File fichier = new File(chemin);
 
				/*.......   différents traitements pour recuperer le fichier par son url    */
 
				Reader reader = new FileReader(fichier);
				new ParserDelegator().parse(reader,parser,false);
 
				System.out.println("FIN");

Voila pour le code.

Tout ce passe bien jusqu'a l'appel de ParserDelegator().parse(....);

Seulement pour certaine page tout va bien ce passé (FIN est affiché normalement). Et pour d'autre page FIN ne s'affiche pas et voila ce qu'il est affiché :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
html
head
title
html_implied_=true
head_implied_=true
body_implied_=true

Donc apparement c'est parce que le document ne serait pas comforme a la dtd je crois...

J'ai donc regarder à quel endroit dans les pages cela pouvait il bloquer. Et il semblerait que par exemple :

<meta http-equiv="content-type" content="text/html; charset=UTF-8">

fait bloquer et il y en a peut être d'autre. (celle ci, c'est sur j'ai testé une page qui ne l'avait pas puis je l'ai rajouté après)

Voilà j'espère que j'ai été clair en vous exposant mon problème.

Donc j'aimerais savoir s'il y a un moyen de faire en sorte que ca marche ?????

Merci, flo

**Patriarch24** · 08/12/2006, 12h23

Pourquoi ne pas utiliser un parseur XML ?

**OButterlin** · 08/12/2006, 13h34

Envoyé par floflo_2006

Bonjour,
<meta http-equiv="content-type" content="text/html; charset=UTF-8">

Effectivement, cette balise html (entre autres) pose problème pour un parser XML, il attend la balise de fermeture... qui n'existe pas...

Si ton tag meta était codé <meta... />, je pense que tu n'aurais pas le problème... mais évidemment, tu ne métrises pas le contenu.

Regarde plutôt du coté des parser HTML (spécialisés)

A+

**floflo_2006** · 08/12/2006, 17h26

Merci pour vos réponses

OButterlin => j'utilise déjà un parser HTML
J'utilise javax.swing.text.html......

Sinon je ne connais pas comment fonctionne les parsers XML en java mais je vais regarder dans la doc et voir si ca bloque ou non de cette manière

Si quelqun a d'autres solutions elles sont les bien venues

Merci

**Patriarch24** · 11/12/2006, 11h33

Autant pour moi je n'avais pas bien lu. C'est le problème du HTML : on peut écrire n'importe quoi ; en effet avec un parseur XML, le problème est qu'il va chercher une balise fermant le meta, sans la trouver (normalement, meta est un élément vide...) : donc, document non accepté (mal formé).

**azerr** · 13/12/2006, 01h26

Bonsoir floflo_2006,
regarde le parser HTML Jericho sur http://jerichohtml.sourceforge.net/doc/index.html

Tu as un exemple sur http://jerichohtml.sourceforge.net/s...cificTags.java
qui te montre comment recuperer des elements pour un tag specific.

Ex : pour recuperer les elements <H2> d'un source HTMl, tu fais :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
String sourceUrlString = "monFichier.html"
Source source=new Source(new URL(sourceUrlString));
source.findAllElements(Tag.H2)

J'espere que ca pourra t'aider

Angelo

Erreur, Parser : récupérer les liens d'une page html

Java

Vue hybride

Discussions similaires

Partager

Partager