Traitement de chaîne Unicode, reconnaissance du charset

**anihat** · 26/09/2007, 20h00

Bonjour, je dois traiter des pages dont je connais pas le charset, y a t-il qlq1 qui a une idée pour reconnaître le charset correspondant à une page.

langage : C

Merci

**Gruik** · 26/09/2007, 20h45

Salut,

On peut pas reconnaitre un charset, on peut juste dire qu'un bout de texte n'est pas dans tel charset. L'information "dans quel charset est ce bout de texte" doit être ailleurs que dans le bout de texte, ou alors celui qui utilise ce bout de texte doit indiquer lui meme dans quel charset est le bout de texte.
Dans les fichiers xml ça fait l'objet d'un entete.

**Vincent Rogier** · 26/09/2007, 21h27

Effectivement, comme le dit Gruik, c'est pas vraiment possible.

Par contre, ce qui est possible c'est d'essayer de deviner l"encodage.
Grosso modo, ansi, UFT16 et 32 (ainsi que leur version L/B endian) et voire UTF8 (mais c'est plus galère et moins sûr) sont reconnaissables après étude des octets d'un bout de texte.

C'est d'ailleurs ce que fait la fonction fonction windows IsTextUnicode(si ma mémoire est bonne).

**Gruik** · 26/09/2007, 21h30

Le programme linux "file" essaye aussi de deviner l'encodage des fichiers texte

Traitement de chaîne Unicode, reconnaissance du charset

C

Discussions similaires

Partager

Partager