-
Charset d'une page html
Bonjour,
Je dois, dans mon programme, rappatrier des sources de fichiers que je récupère via l'url. Devant effectuer des opérations sur ces fichiers html, je dois récupérer le charset de cette page, ce que je fais grâce à la méthode getContentType( ) de URLConnection.
Seulement voila, il arrive que, dans certains cas, le charset de la page ne soit pas précisé...
Dans ce cas en quoi dois-je encoder ma page?
Merci d'avance pour votre reponse
-
-
Salut,
Si le header HTTP n'est pas spécifié, tu peux toujours tenté de lire l'entête du fichier pour voir si le charset y est spécifié, avec un ligne du style :
Code:
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
Sinon tu peux utiliser le charset par défaut du système ou UTF-8... sachant que les caractères de base sont en commun et qu'il ne devrait donc pas trop y avoir de "casse"...
a++
-
Tout d'abord, merci pour ta réponse.
Seulement voila, il se trouve que j'ai des accents dans mes fichiers et dans ce cas je remarque qu'en UTF-8 cela ne passe pas...
Je ne sais pas trop quoi faire...
Si quelqu'un a une idée elle est la bienvenue, sinon tant pis...
Merci d'avance...
-
Tu peux tenter avec java.nio.charset.CharsetDecoder.detectedCharset(), cela marche la plupart du temps (mais le résultat n'est pas garanti à 100%).