Problème de charset en réccupérant source HTML

**SrK** · 27/02/2008, 11h34

Bonjour,

J'ai fait une méthode java qui récupère le code source d'une page HTML pour une adresse donnée.

Le problème, c'est qu'elle ne récupère pas correctement les accents etc...

Avez vous une idée ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
 
URL url = new URL(adresse);
URLConnection uc = url.openConnection();
InputStream in = uc.getInputStream();
int c = in.read();
StringBuilder  build = new StringBuilder();
while (c != -1) {
  build.append((char) c);
  c = in.read();
}
  toreturn = build.toString();

Merci

**dingoth** · 27/02/2008, 11h40

Il faut lire la spécification HTML :

1. Si une balise META définit l'encodage, il doit être pris en compte.
2. Sinon, se baser sur l'en-tête XML (éventuel)
3. Sinon, se baser sur l'en-tête HTTP.
4. Sinon, prendre l'encodage par défaut de la machine.

Tu dois changer l'interprétation de ton charset si tu rencontres l'un des cas.

**SrK** · 27/02/2008, 12h21

Merci, pour la réponse, dans un premier temps je vais m'attacher à comment avec un encodage statique avoir les bons caractères.

Comment prendre en compte le charset quand tu récupères l'inputstream, si par défaut je veux mettre UTF-8 ?

Dois je changer ma manière de récupérer ? Le problème, c'est que je n'ai pas trop de choix en passage par URLConnection

Sinon, quand même en ce qui concerne la récupération dynamique de l'encodage.
Pour l'instant, avec uc.getHeaderField("Content-Type") je peux réccup le contenu du meta.
Pour le XML je vois pas trop. Par contre je mettrai UTF-8 par défaut si les test des balises meta et xml ne sont pas bonnes.

**dingoth** · 27/02/2008, 12h40

Si tu veux que ce soit traité comme de l'UTF-8, il faut envoyer la page avec de l'UTF-8. Pour ça, il faut envoyer un en-tête avec ton serveur (fonction header() avec PHP). Et il faut en plus que ta page soit encodée en UTF-8 (Eclipse le permet, ainsi que la plupart des éditeurs de texte).

Par contre, je ne crois pas que tu récupères le contenu de la balise META avec getHeaderField(). Il faut voir dans la doc, mais je suis presque certain que non.

**SrK** · 27/02/2008, 13h11

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

System.out.println("Content-Type : " + uc.getHeaderField("Content-Type"));

m'a retourné :

text/html;charset=UTF-8

Peut être que les balises meta sont mal formées, car getContentEncoding() me retourne null

Sinon, ma page HTML que j'envoi je set bien UTF-8 dans l'encoding, mais c'est pas la que se pose le problème mais avant en fait.

C'est au moment ou je récupérè le contenu de la page, il me stock les mauvais caractères dans bon StringBuffer.
Pour vérifier j'ai rajouter :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

System.out.println((char)c);

dans ma boucle, et au lieu de m'afficher un "é", il m'affiche "Ã©".

**SrK** · 27/02/2008, 14h35

Bon j'ai optimisé un peu le code qui récupère le flux HTML, mais j'ai toujours le même problème avec les caractères genre "é" ...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
 
InputStream in = new URL(adresse).openStream();
try {
  InputStreamReader inR = new InputStreamReader( in );
  BufferedReader buf = new BufferedReader( inR );
  String line;
  while ( ( line = buf.readLine() ) != null ) {
    textHtml = textHtml + line;
  }
} finally {
  in.close();
}

Need help !

Sinon, pour réccup l'encodage dans la balise meta, je le fais désormais comme ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 
URLConnection uc =  new URL(adresse).openConnection();
if (!uc.getHeaderField("Content-Type").equals("") && uc.getHeaderField("Content-Type").length() > 0)
  {
  String[] t = uc.getHeaderField("Content-Type").split(";");
  for ( int x=0;x< t.length; x++) {
    if (t[x].startsWith("charset="))
      encodage = t[x].substring("charset=".length());
  }				
}

**SrK** · 27/02/2008, 17h54

Bon pour le problème d'encodage, cela venait du fait que je ne précisais pas le Charset pour l'InputStreamReader :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 
try {
  InputStreamReader inR = new InputStreamReader( in , encodage );
  BufferedReader buf = new BufferedReader( inR );
  String line;
  while ( ( line = buf.readLine() ) != null ) 
    textHtml += line;		    
} finally {
  in.close();
}

**SrK** · 01/03/2008, 19h53

Je conseil d'utiliser la bibliothèque HttpClient pour aller plus vite, pour avoir le flux HTMl.

Problème de charset en réccupérant source HTML

Langage Java

Discussions similaires

Partager

Partager