Bonjour, je dois traiter des pages dont je connais pas le charset, y a t-il qlq1 qui a une idée pour reconnaître le charset correspondant à une page.
langage : C
Merci
Version imprimable
Bonjour, je dois traiter des pages dont je connais pas le charset, y a t-il qlq1 qui a une idée pour reconnaître le charset correspondant à une page.
langage : C
Merci
Salut,
On peut pas reconnaitre un charset, on peut juste dire qu'un bout de texte n'est pas dans tel charset. L'information "dans quel charset est ce bout de texte" doit être ailleurs que dans le bout de texte, ou alors celui qui utilise ce bout de texte doit indiquer lui meme dans quel charset est le bout de texte.
Dans les fichiers xml ça fait l'objet d'un entete.
Effectivement, comme le dit Gruik, c'est pas vraiment possible.
Par contre, ce qui est possible c'est d'essayer de deviner l"encodage.
Grosso modo, ansi, UFT16 et 32 (ainsi que leur version L/B endian) et voire UTF8 (mais c'est plus galère et moins sûr) sont reconnaissables après étude des octets d'un bout de texte.
C'est d'ailleurs ce que fait la fonction fonction windows IsTextUnicode(si ma mémoire est bonne).
Le programme linux "file" essaye aussi de deviner l'encodage des fichiers texte