Problème avec caractères chinois

Version imprimable

02/12/2012, 22h41
Invité

Problème avec caractères chinois
J'extrais d'un fichier plusieurs zone de texte via des head et tail (seule façon que j'ai trouvé pour garder les caractères spéciaux et savoir où je me trouve dans le fichier)

Voici un exemple du fichier en hexa :

Code:

52 00 6f 00 62 00 65 00 20 00 64 00 65 00 20 00 66 00 e9 00 65 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 be ab c1 e9 c8 b9 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 4d 6f 64 65 6c 73 5c 4d 61 74 74 65 72 73 5c ce ef c6 b7 5c ca b1 d7 b0 b5 f4 c2 e4 5c ca b1 d7 b0 b5 f4 c2 e4 2e 65 63 6d 00 00 00 00 00 00 00

Voici le code utilisé (rien de sorcier...)
Code:

1 2 3 4 5 6 head -c64 elements.txt > fichier tail -c+96 elements.txt > tmp echo -n " " >> fichier head -c48 tmp >> fichier sed -i 's/\x00//g' fichier
1ère partie en français le plus souvent (chaque lettre est séparée par le caractère hexa 00). Cela donne donc "Robe de fée" une fois le 00 enlevés.
Cela peux aussi être dans de rares cas en chinois (sans la séparation par les 00).

Dernière partie en chinois simplifié :
Models\Matters\物品\时装掉落\时装掉落.ecm

Ce que j'obtiens via mon script (je vois que c'est le codage ANSI qui a été choisi ...) :
Robe de fée Models\Matters\ÎïÆ·\Ê±×°µôÂä\Ê±×°µôÂä.ecm

Si je force la lecture dans mon éditeur de texte en chinois simplifié:
Robe de f閑 Models\Matters\物品\时装掉落\时装掉落.ecm

Il y a-t-il un moyen de forcer le codage pour avoir le résultat voulu (texte en français visible ainsi que le texte en chinois) ?
Voici ce que j'aimerais avoir:
Robe de fée Models\Matters\物品\时装掉落\时装掉落.ecm

Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 $ od -t x1 elements.txt 0000000 52 00 6f 00 62 00 65 00 20 00 64 00 65 00 20 00 0000020 66 00 e9 00 65 00 00 00 00 00 00 00 00 00 00 00 0000040 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 * 0000100 be ab c1 e9 c8 b9 00 00 00 00 00 00 00 00 00 00 0000120 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 0000140 4d 6f 64 65 6c 73 5c 4d 61 74 74 65 72 73 5c ce 0000160 ef c6 b7 5c ca b1 d7 b0 b5 f4 c2 e4 5c ca b1 d7 0000200 b0 b5 f4 c2 e4 2e 65 63 6d 00 00 00 00 00 00 00 0000220 $ printf "%s\n" "$(dd if=elements.txt bs=1 count=64 2>/dev/null | iconv -f UTF-16)" Robe de fée $ printf "%s\n" "$(dd if=elements.txt bs=1 skip=64 count=32 2>/dev/null | iconv -f GB18030)" 精灵裙 $ printf "%s\n" "$(dd if=elements.txt bs=1 skip=96 2>/dev/null | iconv -f GB18030)" Models\Matters\物品\时装掉落\时装掉落.ecm
Si les dernières lignes n'apparaissent pas correctement dans les balises code, comme c'est le cas avec mon navigateur, les voici en texte brut:

$ printf "%s\n" "$(dd if=elements.txt bs=1 skip=64 count=32 2>/dev/null | iconv -f GB18030)"
精灵裙
$ printf "%s\n" "$(dd if=elements.txt bs=1 skip=96 2>/dev/null | iconv -f GB18030)"
Models\Matters\物品\时装掉落\时装掉落.ecm

Merci énormément pour ton aide.

Si j'ai bien compris, printf affiche le résultat de la commande entre parenthèse.
La première partie sélectionne un extrait du fichier.
La deuxième le converti au format voulu.
C'est bien ça?

Voici ce que j'utilise en me basant sur ton code:
Code:

1 2 3 printf "%s\n" "$(dd if=elements.txt bs=1 count=64 2>/dev/null | iconv -f CP1252 -t UTF-8)" > fichier printf "%s\n" "$(dd if=elements.txt bs=1 skip=64 count=32 2>/dev/null | iconv -f GB18030 -t UTF-8)" >> fichier printf "%s\n" "$(dd if=elements.txt bs=1 skip=96 2>/dev/null | iconv -f GB18030 -t UTF-8)" >> fichier
J'ai mis "-f CP1252 -t UTF-8" pour le 1er en fr car avec ta version ça affichait du chinois chez moi :mrgreen:
Le " -t UTF-8" dans les lignes suivantes est juste là pour faire joli, ça marche très bien sans :P

J'ai testé avec le head et le tail, ça fonctionne moins bien que le dd
Je ne connaissait pas la commande dd.
Je sens qu'elle va me faire gagner du temps dans mon traitement :ccool:

Citation:

Envoyé par Beginner.j

Si j'ai bien compris, printf affiche le résultat de la commande entre parenthèse.
La première partie sélectionne un extrait du fichier.
La deuxième le converti au format voulu.
C'est bien ça?

exactement.
Citation:
Voici ce que j'utilise en me basant sur ton code:
Code:

1 2 3 printf "%s\n" "$(dd if=elements.txt bs=1 count=64 2>/dev/null | iconv -f CP1252 -t UTF-8)" > fichier printf "%s\n" "$(dd if=elements.txt bs=1 skip=64 count=32 2>/dev/null | iconv -f GB18030 -t UTF-8)" >> fichier printf "%s\n" "$(dd if=elements.txt bs=1 skip=96 2>/dev/null | iconv -f GB18030 -t UTF-8)" >> fichier
J'ai mis "-f CP1252 -t UTF-8" pour le 1er en fr car avec ta version ça affichait du chinois chez moi :mrgreen:
Le " -t UTF-8" dans les lignes suivantes est juste là pour faire joli, ça marche très bien sans :P
Tu as peut-être un problème de configuration, je n'ai pas mis le "-t UTF-8" car c'est le codage par défaut de ma locale courante, mais alors pourquoi le chinois traditionnel s'affiche bien sans ? peut-être parce qu'il n'est pas représentable dans ta locale et qu'iconv choisit tout seul UTF-8.
Pas de problème de toute façon à laisser le "-t UTF-8" partout.

Citation:

J'ai testé avec le head et le tail, ça fonctionne moins bien que le dd

Oui, head et tail s'attendent à du texte ascii ou a du texte dans ta locale courante mais tu as un fichier où plusieurs codages sont mélangés qu'il est impossible de traiter de manière fiable avec ces outils.

Citation:

Je ne connaissait pas la commande dd.

J'ai pris dd car il travaille au niveau octet et se fiche donc du codage éventuel.

Finalement j'ai encore un problème. Voici le code utilisé:
Code:

1 2 3 4 5 6 7 8 9 10 11 var_nb_element=4 var_taille=64 var_count=64 > fichier j=0 while [ $j -lt $var_nb_element ] do printf "\"%s\";\n" "$(dd if=elements.txt bs=1 skip=$[j*$var_taille] count=$var_count 2>/dev/null | iconv -f GB18030 -t UTF-8)" >> fichier j=`expr $j + 1` done
Voici le fichier elements.txt:

Code:

be 7c 75 70 d9 88 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 d7 65 8d 88 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 6e 66 1a 90 5a 66 3c 79 0d 67 4b 62 57 59 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 74 87 76 87 0a 54 26 5e 0a 4e 63 88 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

Au lieu d'avoir normalement :
"精灵裙";
"旗袍";
"普通晚礼服手套";
"蝴蝶吊带上衣";

J'ai le résultat suivant:
"緗up賵";
"譭崍";
"nf怹f<y
gKbWY";
"t噕";

Dans la 1ère ligne, il y a toujours des lettres.
Dans la 2ème, on vois que les caractères ne sont pas les bons
Dans la 3ème et la 4ème on peut voir que les caractères de retour chariot (0d et 0a) pose problème.

Il faut sans doute prendre autre chose que GB18030 pour iconv, mais comment savoir ?

[Edit]Après vérification dans le fichier:

Correspond à "Robe de fée" dans mon 1er post (c'est 精灵裙 dans ce dernier test) :

Code:

be 7c 75 70 d9 88

Correspond à 精灵裙 dans mon 1er post:

Code:

be ab c1 e9 c8 b9

Les 2 correspondent pourtant bien au même nom en chinois: 精灵裙

iconv marche correctement avec GB18030 pour le 2ème.
Il faudrait trouver le bon codage à utiliser pour le 1er. Il reste à savoir lequel...

C'est de l'unicode:
Code:

1 2 3 4 5 6 7 8 $ cat convert #!/bin/ksh nb_element=4 taille=64 for ((i=0; i< nb_element; i++)); do printf "champs %d, offset %d, \"%s\";\n" $i $((i*taille)) "$(dd if=elements.txt bs=1 skip=$((i*taille)) count=$taille 2>/tmp/null | iconv -f UNICODE -t UTF-8)" done > fichier $ ./convert
$ cat fichier
champs 0, offset 0, "精灵裙";
champs 1, offset 64, "旗袍";
champs 2, offset 128, "普通晚礼服手套";
champs 3, offset 192, "蝴蝶吊带上衣";

Zut, unicode ne fonctionne pas sur mon pc (j'utilise cygwin)
Faut-il installer un package?
Sinon, je sens que je vais passer par une machine virtuelle ...

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
iconv: conversion à partir de UNICODE non supportée
iconv: essayez « iconv -l » pour obtenir la liste des codages supportés
 
$ iconv -l
ANSI_X3.4-1968 ANSI_X3.4-1986 ASCII CP367 IBM367 ISO-IR-6 ISO646-US ISO_646.IRV:
1991 US US-ASCII CSASCII
UTF-8
ISO-10646-UCS-2 UCS-2 CSUNICODE
UCS-2BE UNICODE-1-1 UNICODEBIG CSUNICODE11
UCS-2LE UNICODELITTLE
ISO-10646-UCS-4 UCS-4 CSUCS4
UCS-4BE
UCS-4LE
UTF-16
UTF-16BE
UTF-16LE
UTF-32
UTF-32BE
UTF-32LE
UNICODE-1-1-UTF-7 UTF-7 CSUNICODE11UTF7
UCS-2-INTERNAL
UCS-2-SWAPPED
UCS-4-INTERNAL
UCS-4-SWAPPED
C99
JAVA
CP819 IBM819 ISO-8859-1 ISO-IR-100 ISO8859-1 ISO_8859-1 ISO_8859-1:1987 L1 LATIN
1 CSISOLATIN1
ISO-8859-2 ISO-IR-101 ISO8859-2 ISO_8859-2 ISO_8859-2:1987 L2 LATIN2 CSISOLATIN2
 
ISO-8859-3 ISO-IR-109 ISO8859-3 ISO_8859-3 ISO_8859-3:1988 L3 LATIN3 CSISOLATIN3
 
ISO-8859-4 ISO-IR-110 ISO8859-4 ISO_8859-4 ISO_8859-4:1988 L4 LATIN4 CSISOLATIN4
 
CYRILLIC ISO-8859-5 ISO-IR-144 ISO8859-5 ISO_8859-5 ISO_8859-5:1988 CSISOLATINCY
RILLIC
ARABIC ASMO-708 ECMA-114 ISO-8859-6 ISO-IR-127 ISO8859-6 ISO_8859-6 ISO_8859-6:1
987 CSISOLATINARABIC
ECMA-118 ELOT_928 GREEK GREEK8 ISO-8859-7 ISO-IR-126 ISO8859-7 ISO_8859-7 ISO_88
59-7:1987 ISO_8859-7:2003 CSISOLATINGREEK
HEBREW ISO-8859-8 ISO-IR-138 ISO8859-8 ISO_8859-8 ISO_8859-8:1988 CSISOLATINHEBR
EW
ISO-8859-9 ISO-IR-148 ISO8859-9 ISO_8859-9 ISO_8859-9:1989 L5 LATIN5 CSISOLATIN5
 
ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 ISO_8859-10:1992 L6 LATIN6 CSISOLA
TIN6
ISO-8859-11 ISO8859-11 ISO_8859-11
ISO-8859-13 ISO-IR-179 ISO8859-13 ISO_8859-13 L7 LATIN7
ISO-8859-14 ISO-CELTIC ISO-IR-199 ISO8859-14 ISO_8859-14 ISO_8859-14:1998 L8 LAT
IN8
ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 ISO_8859-15:1998 LATIN-9
ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16 ISO_8859-16:2001 L10 LATIN10
KOI8-R CSKOI8R
KOI8-U
KOI8-RU
CP1250 MS-EE WINDOWS-1250
CP1251 MS-CYRL WINDOWS-1251
CP1252 MS-ANSI WINDOWS-1252
CP1253 MS-GREEK WINDOWS-1253
CP1254 MS-TURK WINDOWS-1254
CP1255 MS-HEBR WINDOWS-1255
CP1256 MS-ARAB WINDOWS-1256
CP1257 WINBALTRIM WINDOWS-1257
CP1258 WINDOWS-1258
850 CP850 IBM850 CSPC850MULTILINGUAL
862 CP862 IBM862 CSPC862LATINHEBREW
866 CP866 IBM866 CSIBM866
CP1131
MAC MACINTOSH MACROMAN CSMACINTOSH
MACCENTRALEUROPE
MACICELAND
MACCROATIAN
MACROMANIA
MACCYRILLIC
MACUKRAINE
MACGREEK
MACTURKISH
MACHEBREW
MACARABIC
MACTHAI
HP-ROMAN8 R8 ROMAN8 CSHPROMAN8
NEXTSTEP
ARMSCII-8
GEORGIAN-ACADEMY
GEORGIAN-PS
KOI8-T
CP154 CYRILLIC-ASIAN PT154 PTCP154 CSPTCP154
KZ-1048 RK1048 STRK1048-2002 CSKZ1048
MULELAO-1
CP1133 IBM-CP1133
ISO-IR-166 TIS-620 TIS620 TIS620-0 TIS620.2529-1 TIS620.2533-0 TIS620.2533-1
CP874 WINDOWS-874
VISCII VISCII1.1-1 CSVISCII
TCVN TCVN-5712 TCVN5712-1 TCVN5712-1:1993
ISO-IR-14 ISO646-JP JIS_C6220-1969-RO JP CSISO14JISC6220RO
JISX0201-1976 JIS_X0201 X0201 CSHALFWIDTHKATAKANA
ISO-IR-87 JIS0208 JIS_C6226-1983 JIS_X0208 JIS_X0208-1983 JIS_X0208-1990 X0208 C
SISO87JISX0208
ISO-IR-159 JIS_X0212 JIS_X0212-1990 JIS_X0212.1990-0 X0212 CSISO159JISX02121990
CN GB_1988-80 ISO-IR-57 ISO646-CN CSISO57GB1988
CHINESE GB_2312-80 ISO-IR-58 CSISO58GB231280
CN-GB-ISOIR165 ISO-IR-165
ISO-IR-149 KOREAN KSC_5601 KS_C_5601-1987 KS_C_5601-1989 CSKSC56011987
EUC-JP EUCJP EXTENDED_UNIX_CODE_PACKED_FORMAT_FOR_JAPANESE CSEUCPKDFMTJAPANESE
MS_KANJI SHIFT-JIS SHIFT_JIS SJIS CSSHIFTJIS
CP932
ISO-2022-JP CSISO2022JP
ISO-2022-JP-1
ISO-2022-JP-2 CSISO2022JP2
CN-GB EUC-CN EUCCN GB2312 CSGB2312
GBK
CP936 MS936 WINDOWS-936
GB18030
ISO-2022-CN CSISO2022CN
ISO-2022-CN-EXT
HZ HZ-GB-2312
EUC-TW EUCTW CSEUCTW
BIG-5 BIG-FIVE BIG5 BIGFIVE CN-BIG5 CSBIG5
CP950
BIG5-HKSCS:1999
BIG5-HKSCS:2001
BIG5-HKSCS:2004
BIG5-HKSCS BIG5-HKSCS:2008 BIG5HKSCS
EUC-KR EUCKR CSEUCKR
CP949 UHC
CP1361 JOHAB
ISO-2022-KR CSISO2022KR
CP856
CP922
CP943
CP1046
CP1124
CP1129
CP1161 IBM-1161 IBM1161 CSIBM1161
CP1162 IBM-1162 IBM1162 CSIBM1162
CP1163 IBM-1163 IBM1163 CSIBM1163
DEC-KANJI
DEC-HANYU
437 CP437 IBM437 CSPC8CODEPAGE437
CP737
CP775 IBM775 CSPC775BALTIC
852 CP852 IBM852 CSPCP852
CP853
855 CP855 IBM855 CSIBM855
857 CP857 IBM857 CSIBM857
CP858
860 CP860 IBM860 CSIBM860
861 CP-IS CP861 IBM861 CSIBM861
863 CP863 IBM863 CSIBM863
CP864 IBM864 CSIBM864
865 CP865 IBM865 CSIBM865
869 CP-GR CP869 IBM869 CSIBM869
CP1125
EUC-JIS-2004 EUC-JISX0213
SHIFT_JIS-2004 SHIFT_JISX0213
ISO-2022-JP-2004 ISO-2022-JP-3
BIG5-2003
ISO-IR-230 TDS565
ATARI ATARIST
RISCOS-LATIN1

ps: j'utilise les scripts shell sous windows pour le maitriser de plus en plus. Ca me sera utile à un moment ou un autre au boulot.
Je préfère ta boucle for à ma boucle while, j'avais oublié qu'on pouvait l'utiliser comme ça et plutôt qu'avec une liste.

05/12/2012, 21h30
Invité

Trouvé, c'est "UCS-2LE" ou "UNICODELITTLE" que je doit utiliser.
C'est parfait maintenant.

Merci encore :ccool: