Bonjour,
J'essaye de récupérer le contenu d'une page via une application Java. Mon problème est que certains caractère semble non reconnus lors du traitement de la réponse alors que la page s'affiche correctement dansun bronwser ... pour faire simple, voila en simplifié le code qui pose problème :
Le Charset de la page est bien ISO-8859-1 (vérifié). Les caractères accentué sont bien traité mais le ' (représenté dans le getResponseBodyAsString() comme un "’" [Edit] le caractère ne passe pas, il s'agit d'un petit carré[/EDIT])se retrouve parsé dans response comme un "?".
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13 String response = null; try { HttpMethodBase m = new GetMethod(replaceBlanks(chapterURL)); m.getParams().setCookiePolicy(CookiePolicy.BROWSER_COMPATIBILITY); client.executeMethod(m); response = new String(m.getResponseBodyAsString().getBytes(), "ISO-8859-1"); System.out.println(response); } catch (IOException e) { e.printStackTrace(); //To change body of catch statement use File | Settings | File Templates. log.inform("error while retreiving paragraph"); }
A noter que si un autre encoding est utilisé, non seulement le ' est mal parsé, mais les caractères accentué aussi.
J'avoue que je ne vois vraiment pas d'ou vient le problème
Partager