Problème avec l'unicode

**nox75** · 02/10/2007, 17h53

Salut à tous,

Bon je sais pas si je suis dans la bonne section, mais mon probleme est le suivant :
J'ai (dans une table SQL) une colonne qui contient une chaîne de caracteres unicode mal terminée ou contenant des caracteres non tolérés.
J'ai donc regardé en hexa ma chaîne de caractere, et au lieu d'avoir

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

0x45006D0070006C006F0079006500650028007300290020003A002000

(ce qui correspond à la chaîne : "Employee(s) : ")
j'ai

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

0x45006D0070006C006F0079006500650028007300290020003A00200000003F0000003F0000003F0000003F0000003F0000003F0000003F0000003F0000003F0000003F000000070000003F0000003F0000003F0000003F0000003F0000003F0000003F0000003F0000003F0000003F000000070000003F0000003F0000003F00

et ca m**** completement.

Donc je m'interroge :
1/Pourquoi ma chaîne ne commence-t-elle pas par 0045 ?
2/La décomposition c'est bien par 4 non ? donc (00)45 006D 0070 etc... ce qui veut dire que dans le "bon" cas ca finit par "00", c'est normal ? ca ne devrait pas aller par 4 normalement là aussi ?
3/qu'est ce que c'est que ces caracteres qui s'ajoutent ?? 0000 il me semble que ca correspond à NULL, mais 0007 c'est un caractere par contre...

bref : c'est le bordel ! :'(

Merci d'avance !

**Neitsa** · 03/10/2007, 09h18

Bonjour,

Envoyé par nox75

1/Pourquoi ma chaîne ne commence-t-elle pas par 0045 ?

Pour le mapping ASCII <-> Unicode (quand les caractères peuvent passer de l'un à l'autre), le double zéro (00) est à droite :

'E' = 45 00

2/La décomposition c'est bien par 4 non ?

Oui.

donc (00)45 006D 0070 etc... ce qui veut dire que dans le "bon" cas ca finit par "00", c'est normal ? ca ne devrait pas aller par 4 normalement là aussi ?

cf. 1)

45 00 6D 00 70 00 6C 00 6F 00 79 00 65 00 65 00
28 00 73 00 29 00 20 00 3A 00 20 00 00 00
Employee(s) _:_

Apparemment, je ne vois aucun problèmes.

3/qu'est ce que c'est que ces caracteres qui s'ajoutent ??

Je ne sais pas (concernant les "3F 00") mais à partir du moment ou le '\0' (double zéro en unicode) terminal est là, le reste n'est pas très important je pense.

0000 il me semble que ca correspond à NULL

Oui.

mais 0007 c'est un caractere par contre...

Il y a :
- "70 00" : 'p'
- "79 00" : 'y'
- "73 00" : 's'

Mais je ne vois pas de 0007...

Bref, à moins d'avoir loupé quelque chose, je ne vois pas de problèmes apparent.

**nox75** · 03/10/2007, 09h36

Bonjour,

Envoyé par Neitsa

Pour le mapping ASCII <-> Unicode (quand les caractères peuvent passer de l'un à l'autre), le double zéro (00) est à droite :

D'accord voila qui m'éclaire deja pas mal

Envoyé par Neitsa

Apparemment, je ne vois aucun problèmes.
Je ne sais pas (concernant les "3F 00") mais à partir du moment ou le '\0' (double zéro en unicode) terminal est là, le reste n'est pas très important je pense.

Justement je pense que c'est le fait qu'il y ait quelque chose apres le 00 00, qui donc si j'ai bien compris indique la fin de chaîne, qui fait que ca pose probleme.
Donc je vais devoir tronquer ma chaîne.
Le problème reste maintenant de savoir si ces éléments situés apres doivent être conservés ou s'ils proviennent d'une erreur quelconque.
Bref s'agit-il de données...
Je ne trouve nulle part le 3F 00, et quand j'essaye de le convertir en char, je ne vois qu'un petit carré (ce qui voudrait dire que c'est un caractere asiatique ou autre si je ne m'abuse).
Le 07 00 ca serait apparemment le point d'interrogation.
Bref je suis perplexe.

Mais un grand merci pour ton aide qui m'aide deja beaucoup à y voir plus clair !

**droggo** · 03/10/2007, 14h35

Juo,

Envoyé par Neitsa

Pour le mapping ASCII <-> Unicode (quand les caractères peuvent passer de l'un à l'autre), le double zéro (00) est à droite

Pas forcément, Unicode sait gérer aussi bien les Big et Little Endian, l'ordre dépend donc du logiciel qui a créé le fichier.

**Franckintosh** · 03/10/2007, 14h56

Envoyé par nox75

3/qu'est ce que c'est que ces caracteres qui s'ajoutent ??

Ca ne viendrait pas du fait que cette colonne soit typée en char ?

**nox75** · 03/10/2007, 15h32

Envoyé par Franckintosh

Ca ne viendrait pas du fait que cette colonne soit typée en char ?

Non c'est la premiere chose que j'ai vérifié, c'est bien du nvarchar : /

**Neitsa** · 03/10/2007, 19h49

Envoyé par droggo

Juo,

Pas forcément, Unicode sait gérer aussi bien les Big et Little Endian, l'ordre dépend donc du logiciel qui a créé le fichier.

Oui c'est vrai, tu as tout à fait raison. J'aurais dû préciser que la réponse était relative à l'exemple du posteur (en little endian).

Ceci dit, pour en revenir au problème, je ne vois absolument pas d'où ça vient. Je ne comprend pas pourquoi il n'y pas d'arrêt à la fin de la chaîne unicode (le '\0' unicode)...

**nox75** · 04/10/2007, 09h22

Envoyé par Neitsa

Ceci dit, pour en revenir au problème, je ne vois absolument pas d'où ça vient. Je ne comprend pas pourquoi il n'y pas d'arrêt à la fin de la chaîne unicode (le '\0' unicode)...

Oui donc on est bien d'accord que ma chaîne devrait se limiter à
45 00 6D 00 70 00 6C 00 6F 00 79 00 65 00 65 00
28 00 73 00 29 00 20 00 3A 00 20 00 00 00

le 00 00 marque la fin de chaîne, c'est bien ca ?
Donc tout ce qui se situe apres :
-soit c'est des données et je dois les rentrer dans la chaîne (et comprendre ce que ca fout la >_<)
-soit c'est un espece de padding bizarre qui ne veut rien dire et je tronque sauvagement (et j'essaye de comprendre ce que ca fout la >_<)

Problème avec l'unicode

Langages de programmation

Discussions similaires

Partager

Partager