Bonjour!
Dans le cadre de mon programme, je développe un système qui récupère des pages internet, les lit, et les écrit dans un fichier.
Pour ne pas avoir un problème de reconnaissance de caractères, avant chaque écriture, je regarde le charset de la page et la lis selon ce charset. Malheureusement, il arrive assez fréquement que le charset ne soit pas spécifié et donc, j'impose de lire une page qui est dans ce cas en UTF-16.
En général tout se passe très bien, excepté pour certaines pages ou les accents son remplacé par "?"; par exemple :
c?l?brit?
A quoi cela est-il dû, comment puis-je y remédier?
Merci d'avance pour vos éclaircissements :-)
Partager