Bonjour, je dois traiter des pages dont je connais pas le charset, y a t-il qlq1 qui a une idée pour reconnaître le charset correspondant à une page.
langage : C
Merci
Bonjour, je dois traiter des pages dont je connais pas le charset, y a t-il qlq1 qui a une idée pour reconnaître le charset correspondant à une page.
langage : C
Merci
Salut,
On peut pas reconnaitre un charset, on peut juste dire qu'un bout de texte n'est pas dans tel charset. L'information "dans quel charset est ce bout de texte" doit être ailleurs que dans le bout de texte, ou alors celui qui utilise ce bout de texte doit indiquer lui meme dans quel charset est le bout de texte.
Dans les fichiers xml ça fait l'objet d'un entete.
Effectivement, comme le dit Gruik, c'est pas vraiment possible.
Par contre, ce qui est possible c'est d'essayer de deviner l"encodage.
Grosso modo, ansi, UFT16 et 32 (ainsi que leur version L/B endian) et voire UTF8 (mais c'est plus galère et moins sûr) sont reconnaissables après étude des octets d'un bout de texte.
C'est d'ailleurs ce que fait la fonction fonction windows IsTextUnicode(si ma mémoire est bonne).
Vincent Rogier.
Rubrique ORACLE : Accueil - Forum - Tutoriels - FAQ - Livres - Blog
Vous voulez contribuer à la rubrique Oracle ? Contactez la rubrique !
OCILIB (C Driver for Oracle)
Librairie C Open Source multi-plateformes pour accéder et manipuler des bases de données Oracle
Le programme linux "file" essaye aussi de deviner l'encodage des fichiers texte
Partager