IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C++ Discussion :

Conversion de caractères utf8 hex


Sujet :

C++

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Janvier 2008
    Messages
    91
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2008
    Messages : 91
    Points : 50
    Points
    50
    Par défaut Conversion de caractères utf8 hex
    Bonjour,

    Je reçois en entrée un string contenant des caractères spéciaux sous la forme par exemple %C3%A9.
    Je voudrais convertir les caractères de cette chaîne pour avoir plutôt des caractères comme é.
    Pour info, ce string correspond au chemin d'un fichier que je dois ouvrir.

    Je n'ai pas de contrôle sur la chaîne en entrée.
    Je préférerai une méthode sans librairie externe, dans un soucis d'utilisation de licence.

    Merci d'avance

  2. #2
    Expert éminent sénior
    Avatar de Médinoc
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2005
    Messages
    27 369
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 27 369
    Points : 41 519
    Points
    41 519
    Par défaut
    Ça dépend dans quel format il te faut ton nom de fichier.
    S'il te le faut en UTF-8 ce ne sera pas un problème; sinon ta conversion aura besoin d'une étape de plus.

    Les bonnes nouvelles sont:
    • Les seules séquences valides pour conversion sont en ASCII pur, donc on n'a pas vraiment à se soucier du reste pour la chaîne d'entrée.
    • La chaîne en sortie ne peut pas être plus grande que celle en entrée, donc pas de problèmes de taille de buffer.

    Commence à coder ta fonction, poste ton code si tu te retrouves bloqué.
    SVP, pas de questions techniques par MP. Surtout si je ne vous ai jamais parlé avant.

    "Aw, come on, who would be so stupid as to insert a cast to make an error go away without actually fixing the error?"
    Apparently everyone.
    -- Raymond Chen.
    Traduction obligatoire: "Oh, voyons, qui serait assez stupide pour mettre un cast pour faire disparaitre un message d'erreur sans vraiment corriger l'erreur?" - Apparemment, tout le monde. -- Raymond Chen.

  3. #3
    Expert éminent sénior

    Avatar de dragonjoker59
    Homme Profil pro
    Software Developer
    Inscrit en
    Juin 2005
    Messages
    2 031
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Software Developer
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2005
    Messages : 2 031
    Points : 11 388
    Points
    11 388
    Billets dans le blog
    11
    Par défaut
    Salut!

    As-tu essayé de stocker cette chaîne dans un std::u32string?
    Si vous ne trouvez plus rien, cherchez autre chose...

    Vous trouverez ici des tutoriels OpenGL moderne.
    Mon moteur 3D: Castor 3D, presque utilisable (venez participer, il y a de la place)!
    Un projet qui ne sert à rien, mais qu'il est joli (des fois) : ProceduralGenerator (Génération procédurale d'images, et post-processing).

  4. #4
    Membre actif
    Inscrit en
    Mai 2012
    Messages
    65
    Détails du profil
    Informations forums :
    Inscription : Mai 2012
    Messages : 65
    Points : 282
    Points
    282
    Par défaut
    Il faudrait spécifier sous quel OS tu travailles, et quel est ton compilateur (pour savoir si tu supported au moins C++11 ou bien si tu es bloqué en C++98/03).

    Si tu es sous un système Unix (Linux/Mac/Sun, etc.), il y a de grandes chances que la la locale par défaut soit en UTF8 (en fait hormis prédisposition particulière, c'est devenu le cas par défaut sur les systèmes POSIX), dans ce cas pas de soucis normalement, si ton string en entrée contient uniquement de l'ASCII ou bien de l'UTF8, tu n'as pas grand chose à faire.

    Mais vu la question, je vais supposer que tu es sous Windows, et là c'est légèrement différent, Windows a fait le choix de s'orienter plutôt sur de l'UTF16 (quand il n'utilise pas des codepages), et c'est là qu'entre en jeu le type wchar_t, problème de ce type primitif c'est que c'est un type plutôt batârd, sous Windows il fait 2 octets (UTF16), sous Linux et autres, il fait plutôt 4 octets (UTF32).
    Mais bon dans ce cas précis ce n'est pas spécialement gênant.

    Tu as plusieurs solutions qui s'offre à toi, soit tu utilises la lib utf8-cpp qui est sous licence MIT (permissive), un exemple :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    std::string str = "\xd8\xaa\xd8\xad\xd9\x8a\xd8\xa9"; //une chaine en UTF8
    std::wstring wstr;
    utf8::unchecked::utf8to16(str.begin(), str.end(), std::back_inserter(wstr));
    Ou bien tu reprends juste ce qui t'intéresse de la lib (à tout cassé 4 petites fonctions).

    Sinon en C++11 :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    std::string str = "\xd8\xaa\xd8\xad\xd9\x8a\xd8\xa9"; //une chaine en UTF8
    std::wstring wstr;
    std::wstring_convert<std::codecvt_utf8<wchar_t>> iconv;
    std::wstring wstr = iconv.from_bytes(str);

  5. #5
    Expert éminent sénior
    Homme Profil pro
    Analyste/ Programmeur
    Inscrit en
    Juillet 2013
    Messages
    4 630
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Analyste/ Programmeur

    Informations forums :
    Inscription : Juillet 2013
    Messages : 4 630
    Points : 10 556
    Points
    10 556
    Par défaut
    Déclaration:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    unsigned char convert_UTF8_to_UTF16(unsigned char*, wchar_t**, unsigned short* /*utf16_len*/);
    Définition:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    unsigned char convert_UTF8_to_UTF16(unsigned char* str, wchar_t** utf16_str, unsigned short* output_utf16_len) {
    	wchar_t* tmp_utf16_str;
     
    	int code_point;
     
    	unsigned short index, pos, utf8_len, utf16_len;
    	unsigned char c, has_no_error;
     
    	if ((str == NULL) || (utf16_str == NULL) || (*(utf16_str) != NULL) || (output_utf16_len == NULL)) { return 0; }
     
    	has_no_error = 1;
     
    	utf8_len  = 0;
     
    	for (index = 0; (has_no_error && (index < 2)); ++index) {
    		pos = 0;
     
    		tmp_utf16_str = (*utf16_str);
    		utf16_len = 0;
     
    		c = str[pos];
     
    		while(has_no_error && (c != '\0')) {
    			if (c < 0x80){
    				utf8_len = 1;
    				++utf16_len;
     
    				if (index == 1) {
    					*tmp_utf16_str = (wchar_t) (c & 0xFF);
    //					printf("%d (1)\n", (int) (*tmp_utf16_str));
     
    					++tmp_utf16_str;
    				}
    			} else if ((c >> 5) == 0x6) {
    				code_point = ((c & 0x1F) << 6);
     
    				c = str[pos + 1];
     
    				if (c != '\0') {
    					utf8_len = 2;
    					++utf16_len;
     
    					if (index == 1) {
    						*tmp_utf16_str = (wchar_t) ((code_point & 0x7FF) + (c & 0x3F));
    //						printf("%d (2)\n", (int) (*tmp_utf16_str));
     
    						++tmp_utf16_str;
    					}
    				} else {
    					has_no_error = 0;
    				}
    			} else if ((c >> 4) == 0xE) {
    				code_point = ((c & 0x0F) << 12);
     
    				c = str[pos + 1];
     
    				if (c != '\0') {
    					code_point = ((code_point & 0xFFFF) + (((c & 0x3F) << 6) & 0xFFF));
     
    					c = str[pos + 2];
     
    					if (c != '\0') {
    						utf8_len = 3;
    						++utf16_len;
     
    						if (index == 1) {
    							*tmp_utf16_str = (wchar_t) ((code_point & 0xFFFF) + (c & 0x3F));
    //							printf("%d (3)\n", (int) (*tmp_utf16_str));
     
    							++tmp_utf16_str;
    						}
    					} else {
    						has_no_error = 0;
    					}
    				} else {
    					has_no_error = 0;
    				}
    			} else if ((c >> 3) == 0x1E) {
    				code_point = ((c & 0x07) << 18);
     
    				c = str[pos + 1];
     
    				if (c != '\0') {
    					code_point = ((code_point & 0x1FFFFF) + (((c & 0x3F) << 12) & 0x3FFFF));
     
    					c = str[pos + 2];
     
    					if (c != '\0') {
    						code_point = ((code_point & 0x1FFFFF) + (((c & 0x3F) << 6) & 0xFFF));
     
    						c = str[pos + 3];
     
    						if (c != '\0') {
    							code_point = ((code_point & 0x1FFFFF) + (c & 0x3F));
     
    							utf8_len = 4;
    							utf16_len += 2;
     
    							if (index == 1) {
    								*(tmp_utf16_str + 1) = (wchar_t) (0xDC00u + (code_point & 0x3FF));
     
    								code_point = (code_point >> 10);
     
    								if (((code_point >> 6) & 0x1F) > 0) {
    									*tmp_utf16_str = (wchar_t) ((code_point - 0x40) + 0xD800u);
    //									printf("%d (4.1)\n", (int) (*tmp_utf16_str));
    								} else {
    									*tmp_utf16_str = (wchar_t) (code_point + 0xD800u);
    //									printf("%d (4.2)\n", (int) (*tmp_utf16_str));
    								}
     
    								tmp_utf16_str += 2;
    							}
    						} else {
    							has_no_error = 0;
    						}
    					} else {
    						has_no_error = 0;
    					}
    				} else {
    					has_no_error = 0;
    				}
    			} else {
    				has_no_error = 0;
    			}
     
    			if (has_no_error) {
    				pos += utf8_len;
    				c = str[pos];
    			}
    		}
     
    		if (has_no_error) {
    			if (index == 0) {
    				if (utf16_len > 0) {
    					++utf16_len;
    					*(utf16_str) = (wchar_t*) malloc(utf16_len * sizeof(wchar_t));
    				} else {
    					has_no_error = 0;
    				}
    			} else /*if (index == 1)*/ {
    				*tmp_utf16_str = L'\0';
    			}
    		}
    	}
     
    	if (has_no_error) {
    		(*output_utf16_len) = utf16_len;
    	} else {
    		(*output_utf16_len) = 0;
    	}
     
    	return has_no_error;
    }

  6. #6
    Expert éminent sénior
    Avatar de Médinoc
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Septembre 2005
    Messages
    27 369
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 27 369
    Points : 41 519
    Points
    41 519
    Par défaut
    Elle fait un peu peur, cette fonction: 150 lignes pour une fonction unique, et pas de const pour la supposée lecture...

    Franchement, ce serait mieux de séparer les fonctionnalités: Une fonction pour lire un codepoint en UTF-8 en mémorisant la position dans le buffer d'entrée, une fonction pour l'écrire en UTF-16 dans un buffer de sortie, et une troisième fonction pour appeler les deux en boucle...
    SVP, pas de questions techniques par MP. Surtout si je ne vous ai jamais parlé avant.

    "Aw, come on, who would be so stupid as to insert a cast to make an error go away without actually fixing the error?"
    Apparently everyone.
    -- Raymond Chen.
    Traduction obligatoire: "Oh, voyons, qui serait assez stupide pour mettre un cast pour faire disparaitre un message d'erreur sans vraiment corriger l'erreur?" - Apparemment, tout le monde. -- Raymond Chen.

Discussions similaires

  1. conversion de caractéres
    Par longjohn dans le forum Général Python
    Réponses: 3
    Dernier message: 27/08/2005, 16h03
  2. [VB.NET] Conversion de caractères
    Par WriteLN dans le forum Windows Forms
    Réponses: 8
    Dernier message: 17/03/2005, 08h45
  3. [DOS] batch et conversion de caractères
    Par lujayne dans le forum Scripts/Batch
    Réponses: 2
    Dernier message: 14/12/2004, 16h05
  4. [DB2][Access]Conversion de caractères
    Par BAYRAL dans le forum DB2
    Réponses: 2
    Dernier message: 12/10/2004, 10h00
  5. Conversion et re-conversion des caractères reservé à MySQL
    Par Didier100 dans le forum Bases de données
    Réponses: 4
    Dernier message: 30/06/2004, 14h23

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo