IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

MFC Discussion :

Conversion MBCS vers UNICODE


Sujet :

MFC

  1. #1
    Membre confirmé Avatar de stephdim
    Profil pro
    Inscrit en
    Août 2007
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 462
    Points : 521
    Points
    521
    Par défaut Conversion MBCS vers UNICODE
    Bonjour,

    Sur mon projet MFC (VS2005), je manipule des chaines de caractères de type TCHAR. Donc, suivant l'option de compilation, c'est soit du SBCS, du MBCS ou de l'UNICODE. Bien que je n'envisage de faire la compilation qu'en UNICODE, mon application est compatible avec ces trois codages.

    J'utilise des fonctions qui n'acceptent que de l'UNICODE en paramètre (des fonctions GDI+ pour être précis), donc je fais une conversion à la volée (en utilisant un CStringW par exemple)

    Sur certaines fonctions, j'ai besoin de manipuler des index sur les caractères d'une chaine. Et comme il y a une conversion qui est effectuée vers l'UNICODE, si je suis en SBCS ou en MBCS, ces index ne sont plus valables.

    J'ai donc besoin de 'mapper' ces index, dans un sens, puis dans l'autre, de la conversion.

    Est ce qu'on peut dire :

    - un caractère SBCS (un CHAR) = 1 WCHAR uniquement
    - un caractère MBCS (un ou deux CHAR, puisque la CRT ne gère que le DBCS) = 1 WCHAR uniquement

    dans ce cas là, faire correspondre les index est assez trivial, puisque c'est le nombre de caractères.

    mais comme la fonction MultiByteToWideChar, et sa réciproque WideCharToMultiByte, sont UTF-16 et non UCS-2, j'ai des doutes ...

    bien que la fonction wctomb de la CRT me fait penser qu'il y a uniquement 1 WCHAR pour un caractère MBCS, car voici sa signature:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    int wctomb(
       char *mbchar,
       wchar_t wchar 
    );
    idem pour la réciproque mbtowc, qui ne fournit qu'un WCHAR

    Est-ce que mon raisonnement est valide ?

    Merci d'avance

    @+

  2. #2
    Expert éminent sénior
    Avatar de Médinoc
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2005
    Messages
    27 369
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 27 369
    Points : 41 519
    Points
    41 519
    Par défaut
    Je connaissant pas les charsets DBCS de Windows, je ne saurais quoi te répondre.
    Mais je ne vois pas ce qui empêcherait qu'une page de codes DBCS contienne des caractères hors du Basic Multilingual Plane... sauf peut-être si toutes les pages DBCS ont été créées avant que Windows supporte l'UTF-16 (ça doit pouvoir se vérifier quelque part).

    En supposant ceci, tes suppositions doivent être bonnes. Alors, ceci devrait t'aider:
    _mbclen, mblen, _mblen_l

    PS: En partant de ce principe, on arriverait à la conclusion que seul le jeu de caractères UTF-8 (qui n'est supporté que par les fonctions de conversions et rien d'autre, parce qu'il n'est pas DBCS) peut donner plusieurs WCHAR pour le même caractère...
    SVP, pas de questions techniques par MP. Surtout si je ne vous ai jamais parlé avant.

    "Aw, come on, who would be so stupid as to insert a cast to make an error go away without actually fixing the error?"
    Apparently everyone.
    -- Raymond Chen.
    Traduction obligatoire: "Oh, voyons, qui serait assez stupide pour mettre un cast pour faire disparaitre un message d'erreur sans vraiment corriger l'erreur?" - Apparemment, tout le monde. -- Raymond Chen.

  3. #3
    Membre confirmé Avatar de stephdim
    Profil pro
    Inscrit en
    Août 2007
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 462
    Points : 521
    Points
    521
    Par défaut
    a priori, seul l'UTF-8 peut donner de l'UTF-16, sinon tout le reste serait de l'UCS-2, concernant le SBCS et le DBCS, comme tu l'as dit.

    on peut le voir aussi dans les vieilles macros de conversion de l'ATL (A2W par exemple), qui alloue le buffer pour la conversion comme si 1 caractère DBCS = 1 WCHAR au final ...

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    #define A2W(lpa) (\
    	((_lpa = lpa) == NULL) ? NULL : (\
    		_convert = (lstrlenA(_lpa)+1),\
    		(INT_MAX/2<_convert)? NULL :  \
    		ATLA2WHELPER((LPWSTR) alloca(_convert*sizeof(WCHAR)), _lpa, _convert, _acp)))
    si 1 caractère SBCS ou DBCS donnait plusieurs WCHAR, il y aura clairement un dépassement de buffer ...

    ah ces chaines de caractères ... quel casse tête !!!

    merci medinoc pour la réponse

  4. #4
    Expert éminent sénior
    Avatar de Médinoc
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2005
    Messages
    27 369
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 27 369
    Points : 41 519
    Points
    41 519
    Par défaut
    D'un autre côté, j'éviterais de faire trop confiance aux vieilles macros: Je connais un posteur ici qui a eu des ennuis à cause d'alloca().

    À part ça, tu devrais être safe.
    SVP, pas de questions techniques par MP. Surtout si je ne vous ai jamais parlé avant.

    "Aw, come on, who would be so stupid as to insert a cast to make an error go away without actually fixing the error?"
    Apparently everyone.
    -- Raymond Chen.
    Traduction obligatoire: "Oh, voyons, qui serait assez stupide pour mettre un cast pour faire disparaitre un message d'erreur sans vraiment corriger l'erreur?" - Apparemment, tout le monde. -- Raymond Chen.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Conversion de ASCII vers Unicode
    Par Arnaud F. dans le forum Langage SQL
    Réponses: 5
    Dernier message: 15/10/2008, 15h48
  2. conversion vers UNICODE
    Par ak_wassim dans le forum Langage
    Réponses: 1
    Dernier message: 17/01/2008, 19h29
  3. Conversion de chaine vers unicode
    Par viny dans le forum PostgreSQL
    Réponses: 1
    Dernier message: 08/01/2007, 22h22
  4. conversion chaîne multioctets vers unicode
    Par Bruno75 dans le forum Delphi
    Réponses: 1
    Dernier message: 25/09/2006, 15h53
  5. Conversion Ansi vers Unicode
    Par FamiDoo dans le forum C++
    Réponses: 10
    Dernier message: 10/08/2006, 14h31

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo