Traitement de chaîne Unicode, reconnaissance du charset

Version imprimable

26/09/2007, 20h00
anihat

Traitement de chaîne Unicode, reconnaissance du charset

Bonjour, je dois traiter des pages dont je connais pas le charset, y a t-il qlq1 qui a une idée pour reconnaître le charset correspondant à une page.

langage : C

Merci
26/09/2007, 20h45
Gruik

Salut,

On peut pas reconnaitre un charset, on peut juste dire qu'un bout de texte n'est pas dans tel charset. L'information "dans quel charset est ce bout de texte" doit être ailleurs que dans le bout de texte, ou alors celui qui utilise ce bout de texte doit indiquer lui meme dans quel charset est le bout de texte.
Dans les fichiers xml ça fait l'objet d'un entete.
26/09/2007, 21h27
Vincent Rogier

Effectivement, comme le dit Gruik, c'est pas vraiment possible.

Par contre, ce qui est possible c'est d'essayer de deviner l"encodage.
Grosso modo, ansi, UFT16 et 32 (ainsi que leur version L/B endian) et voire UTF8 (mais c'est plus galère et moins sûr) sont reconnaissables après étude des octets d'un bout de texte.

C'est d'ailleurs ce que fait la fonction fonction windows IsTextUnicode(si ma mémoire est bonne).
26/09/2007, 21h30
Gruik

Le programme linux "file" essaye aussi de deviner l'encodage des fichiers texte

Fuseau horaire GMT +2. Il est actuellement 02h46.