IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C Discussion :

Encodage de caractères


Sujet :

C

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    200
    Détails du profil
    Informations personnelles :
    Localisation : France, Bas Rhin (Alsace)

    Informations forums :
    Inscription : Septembre 2005
    Messages : 200
    Par défaut Encodage de caractères
    Bonjour,
    Je me pose des question au sujet de l'encodage des caractères.

    en C, en déclarant un caractère de type "char", 8 bits sont alloués.
    Si le caractère est compris entre 0 et 127, il se trouve dans la table ASCII, donc aucun problème.

    Par contre, les autres caractères (é, ç, ..., caractères exotiques, ...) possèdent un numéro unicode, et sont éventuellement présent dans une (ou plusieurs) tables de la plage 128-255.

    Quel est l'encodage utilisé par le compilateur ?
    Quel doit être l'encodage du code source dans lequel sont définis des chaines de caractères ?
    Quel est l'encodage utilisé lorsque l'on ouvre un fichier texte ?

    Est-il possible (judicieux) d'utiliser dans toute le cycle de développement (codage, compilation, exécution, ...) de l'UTF-8 ?

    Merci pour vos remarques

    Nicolas
    Strasbourg

  2. #2
    Expert confirmé

    Inscrit en
    Novembre 2005
    Messages
    5 145
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 5 145
    Par défaut
    Citation Envoyé par Nico_stras Voir le message
    Bonjour, Je me pose des question au sujet de
    l'encodage des caractères.
    Ne t'en fais pas, ceux qui ne s'en posent pas n'ont vraisemblablement pas
    compris le probleme.

    en C, en déclarant un caractère de type "char", 8 bits sont
    alloués.
    Au minimum.

    Si le caractère est compris entre 0 et 127, il se trouve dans la
    table ASCII, donc aucun problème.
    Pas necessairement. L'utilisation d'ASCII n'est en rien obligatoire. Il y
    a des implementations qui utilisent EBCDIC.

    Par contre, les autres caractères (é, ç, ..., caractères exotiques,
    ...) possèdent un numéro unicode,
    Oui. Mais il y a d'autres charsets qu'Unicode.

    et sont éventuellement présent dans une (ou plusieurs) tables de la
    plage 128-255.
    Unicode s'etend largement au dela de cette plage.

    Quel est l'encodage utilisé par le compilateur ?
    Ca depend (du compilo, de l'OS, de la configuration, en particulier de la
    locale utilisee par le compilateur -- gcc par exemple est capable d'en
    gerer pas mal)

    Quel doit être l'encodage du code source dans lequel sont définis
    des chaines de caractères ?
    Ca depend de la locale utilisee quand on execute le programme.

    Quel est l'encodage utilisé lorsque l'on ouvre un fichier
    texte?
    Ca depend de l'editeur qui peut faire dependre ca de pas mal de chose (le
    mien par exemple detecte un fichier LaTeX et utilise l'encodage indique par
    le contenu LaTeX).

    Est-il possible (judicieux) d'utiliser dans toute le cycle de
    développement (codage, compilation, exécution, ...) de l'UTF-8 ?
    Mon point de vue actuel est qu'il ne faut plus utiliser des chars mais
    uniquement des wchar_t en interne sauf cas particulier (genre systeme ou
    toutes les locales n'utilisent pas le meme encodage pour les wchar_t, ca
    existe) ou la, il faut reflechir un peu plus.

    Quelques documents, tous incomplets, j'espere completer le premier pour
    faire en sorte qu'il soit complet. Les deux autres devraient alors etre
    soit fusionne dedans, soit y faire reference.

    http://www.bourguet.org/v2/cs/charset/

    http://www.bourguet.org/v2/clang/libc90/caracteres.html

    http://www.bourguet.org/v2/clang/caracteres/

  3. #3
    Membre confirmé
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    200
    Détails du profil
    Informations personnelles :
    Localisation : France, Bas Rhin (Alsace)

    Informations forums :
    Inscription : Septembre 2005
    Messages : 200
    Par défaut
    Citation Envoyé par Jean-Marc.Bourguet Voir le message
    Mon point de vue actuel est qu'il ne faut plus utiliser des chars mais uniquement des wchar_t en interne sauf cas particulier (genre systeme ou toutes les locales n'utilisent pas le meme encodage pour les wchar_t, ca existe) ou la, il faut reflechir un peu plus.
    Mais à quoi correspond ce "wchar_t" ?

    Quand le tape un 'é' dans mon code source, comment sera-t-il interpréter par le compilateur ?
    Comment connait-il le codage utilisé pour le code source ?

    Quand on parle de "ANSI-C", cela veut-il dire que l'on utilise un encodage "ANSI" ?

    Citation Envoyé par Jean-Marc.Bourguet Voir le message
    Ca depend (du compilo, de l'OS, de la configuration, en particulier de la locale utilisee par le compilateur -- gcc par exemple est capable d'en gerer pas mal)
    Qu'appelle-tu "locale" ?

  4. #4
    Expert confirmé

    Inscrit en
    Novembre 2005
    Messages
    5 145
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 5 145
    Par défaut
    Citation Envoyé par Nico_stras Voir le message
    Mais à quoi correspond ce "wchar_t" ?
    C'est un type destine aux "caracteres larges", assez grand pour contenir le codet de n'importe quel caractere du charset de n'importe quelle locale.

    Quand le tape un 'é' dans mon code source, comment sera-t-il interpréter par le compilateur ?
    5 contextes:
    - nom d'identificateur: comme un caractere unicode. Pas supporte par des compilateurs rependu: je deconseille.
    - constante de caractere: defini par l'implementation; en pratique si dans le systeme d'encodage de l'implementation la representation de é ne prend qu'un byte, ce sera celui-la. Sinon, aucune idee.
    - constante de chaine: l'encodage de é (eventuellement plusieurs bytes si le mecanisme d'encodage le demande)
    - constante de caractere large (L'é'): la valeur de codet
    - constante de chaine large: la valeur du codet.

    Comment connait-il le codage utilisé pour le code source ?
    Ca, c'est a voir dans la doc de ton editeur.

    Quand on parle de "ANSI-C", cela veut-il dire que l'on utilise un encodage "ANSI" ?
    ANSI, c'est l'organisme de normalisation americain (l'equivalent de l'AFNOR). Ils ont normalise le C en 89. Cette norme a ete reprise quasiment telle quelle par l'ISO en 90 et republiee comme norme nationale par l'ANSI, l'AFNOR, etc. Toujours dans le cadre de l'ISO et avec republication nationale, la norme C a ete amendee en 95, et une nouvelle version a ete publiee en 99. Parler d'ANSI C, c'est un provincialisme americain sauf si on parle specifiquement de la version de 89.

    L'ANSI (qui portait a l'epoque un autre nom) a publie un charset: l'ASCII. Il n'y a pas de charset qui porte le nom ANSI -- bien que sous Windows on utilise ce terme. Mais le charset en question n'est pas clair dans mon esprit -- est-ce le charset local Win-1252, Win-1250, etc suivant la version -- ou est-ce obligatoirement Win-1252?

    Voir les documents que j'ai indique.

  5. #5
    Membre confirmé
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    200
    Détails du profil
    Informations personnelles :
    Localisation : France, Bas Rhin (Alsace)

    Informations forums :
    Inscription : Septembre 2005
    Messages : 200
    Par défaut
    C'est un type destine aux "caracteres larges", assez grand pour contenir le codet de n'importe quel caractere du charset de n'importe quelle locale.
    Comment définies-tu "la locale" ?

  6. #6
    Expert confirmé

    Inscrit en
    Novembre 2005
    Messages
    5 145
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 5 145

Discussions similaires

  1. Probleme d'encodage des caractères spéciaux
    Par pacoulitou24 dans le forum Format d'échange (XML, JSON...)
    Réponses: 4
    Dernier message: 20/06/2006, 16h47
  2. Encodage de caractères
    Par Anduriel dans le forum Langage
    Réponses: 13
    Dernier message: 25/04/2006, 18h22
  3. Réponses: 15
    Dernier message: 24/02/2006, 14h17
  4. [FLASH 8] Encodage de caractères...
    Par Xdrei dans le forum Flash
    Réponses: 1
    Dernier message: 24/02/2006, 07h44
  5. encodage de caractères
    Par hugo123 dans le forum Langage
    Réponses: 7
    Dernier message: 25/01/2006, 15h04

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo