Encodage de caractères

**Nico_stras** · 11/03/2009, 15h45

Bonjour,
Je me pose des question au sujet de l'encodage des caractères.

en C, en déclarant un caractère de type "char", 8 bits sont alloués.
Si le caractère est compris entre 0 et 127, il se trouve dans la table ASCII, donc aucun problème.

Par contre, les autres caractères (é, ç, ..., caractères exotiques, ...) possèdent un numéro unicode, et sont éventuellement présent dans une (ou plusieurs) tables de la plage 128-255.

Quel est l'encodage utilisé par le compilateur ?
Quel doit être l'encodage du code source dans lequel sont définis des chaines de caractères ?
Quel est l'encodage utilisé lorsque l'on ouvre un fichier texte ?

Est-il possible (judicieux) d'utiliser dans toute le cycle de développement (codage, compilation, exécution, ...) de l'UTF-8 ?

Merci pour vos remarques

Nicolas
Strasbourg

**Jean-Marc.Bourguet** · 11/03/2009, 16h13

Envoyé par Nico_stras

Bonjour, Je me pose des question au sujet de
l'encodage des caractères.

Ne t'en fais pas, ceux qui ne s'en posent pas n'ont vraisemblablement pas
compris le probleme.

en C, en déclarant un caractère de type "char", 8 bits sont
alloués.

Au minimum.

Si le caractère est compris entre 0 et 127, il se trouve dans la
table ASCII, donc aucun problème.

Pas necessairement. L'utilisation d'ASCII n'est en rien obligatoire. Il y
a des implementations qui utilisent EBCDIC.

Par contre, les autres caractères (é, ç, ..., caractères exotiques,
...) possèdent un numéro unicode,

Oui. Mais il y a d'autres charsets qu'Unicode.

et sont éventuellement présent dans une (ou plusieurs) tables de la
plage 128-255.

Unicode s'etend largement au dela de cette plage.

Quel est l'encodage utilisé par le compilateur ?

Ca depend (du compilo, de l'OS, de la configuration, en particulier de la
locale utilisee par le compilateur -- gcc par exemple est capable d'en
gerer pas mal)

Quel doit être l'encodage du code source dans lequel sont définis
des chaines de caractères ?

Ca depend de la locale utilisee quand on execute le programme.

Quel est l'encodage utilisé lorsque l'on ouvre un fichier
texte?

Ca depend de l'editeur qui peut faire dependre ca de pas mal de chose (le
mien par exemple detecte un fichier LaTeX et utilise l'encodage indique par
le contenu LaTeX).

Est-il possible (judicieux) d'utiliser dans toute le cycle de
développement (codage, compilation, exécution, ...) de l'UTF-8 ?

Mon point de vue actuel est qu'il ne faut plus utiliser des chars mais
uniquement des wchar_t en interne sauf cas particulier (genre systeme ou
toutes les locales n'utilisent pas le meme encodage pour les wchar_t, ca
existe) ou la, il faut reflechir un peu plus.

Quelques documents, tous incomplets, j'espere completer le premier pour
faire en sorte qu'il soit complet. Les deux autres devraient alors etre
soit fusionne dedans, soit y faire reference.

http://www.bourguet.org/v2/cs/charset/

http://www.bourguet.org/v2/clang/libc90/caracteres.html

http://www.bourguet.org/v2/clang/caracteres/

**Nico_stras** · 11/03/2009, 16h49

Envoyé par Jean-Marc.Bourguet

Mon point de vue actuel est qu'il ne faut plus utiliser des chars mais uniquement des wchar_t en interne sauf cas particulier (genre systeme ou toutes les locales n'utilisent pas le meme encodage pour les wchar_t, ca existe) ou la, il faut reflechir un peu plus.

Mais à quoi correspond ce "wchar_t" ?

Quand le tape un 'é' dans mon code source, comment sera-t-il interpréter par le compilateur ?
Comment connait-il le codage utilisé pour le code source ?

Quand on parle de "ANSI-C", cela veut-il dire que l'on utilise un encodage "ANSI" ?

Envoyé par Jean-Marc.Bourguet

Ca depend (du compilo, de l'OS, de la configuration, en particulier de la locale utilisee par le compilateur -- gcc par exemple est capable d'en gerer pas mal)

Qu'appelle-tu "locale" ?

**Jean-Marc.Bourguet** · 11/03/2009, 17h10

Envoyé par Nico_stras

Mais à quoi correspond ce "wchar_t" ?

C'est un type destine aux "caracteres larges", assez grand pour contenir le codet de n'importe quel caractere du charset de n'importe quelle locale.

Quand le tape un 'é' dans mon code source, comment sera-t-il interpréter par le compilateur ?

5 contextes:
- nom d'identificateur: comme un caractere unicode. Pas supporte par des compilateurs rependu: je deconseille.
- constante de caractere: defini par l'implementation; en pratique si dans le systeme d'encodage de l'implementation la representation de é ne prend qu'un byte, ce sera celui-la. Sinon, aucune idee.
- constante de chaine: l'encodage de é (eventuellement plusieurs bytes si le mecanisme d'encodage le demande)
- constante de caractere large (L'é'): la valeur de codet
- constante de chaine large: la valeur du codet.

Comment connait-il le codage utilisé pour le code source ?

Ca, c'est a voir dans la doc de ton editeur.

Quand on parle de "ANSI-C", cela veut-il dire que l'on utilise un encodage "ANSI" ?

ANSI, c'est l'organisme de normalisation americain (l'equivalent de l'AFNOR). Ils ont normalise le C en 89. Cette norme a ete reprise quasiment telle quelle par l'ISO en 90 et republiee comme norme nationale par l'ANSI, l'AFNOR, etc. Toujours dans le cadre de l'ISO et avec republication nationale, la norme C a ete amendee en 95, et une nouvelle version a ete publiee en 99. Parler d'ANSI C, c'est un provincialisme americain sauf si on parle specifiquement de la version de 89.

L'ANSI (qui portait a l'epoque un autre nom) a publie un charset: l'ASCII. Il n'y a pas de charset qui porte le nom ANSI -- bien que sous Windows on utilise ce terme. Mais le charset en question n'est pas clair dans mon esprit -- est-ce le charset local Win-1252, Win-1250, etc suivant la version -- ou est-ce obligatoirement Win-1252?

Voir les documents que j'ai indique.