différencier caractères romains des caractères chinois

**pierre.coudert** · 27/11/2009, 09h30

Bonjour à tous,

j'ai dans une table de traduction des champs contenant à la fois des libellés en anglais et en chinois. On a donc un mélange de caractères romains et de caractères chinois.
ex:
11 短 short trousers
23 中长 medium long skirt
881 short-短款
...

Je souhaiterais ne récupérer que la chaîne de caractère en caractères romains.
Malheureusement, il n'y a pas de règle de séparation entre le libellé en anglais et celui en chinois (parfois séparé par un '/', parfois par un '-', parfois l'anglais est avant le chinois....)

Est-ce que quelqu'un connaitrait une fonction ou aurait une idée afin que je puisse différencier les 2 écritures ?

Merci d'avance pour votre aide.

Pierre

**Waldar** · 27/11/2009, 11h54

Quelle est votre version ?

**pierre.coudert** · 30/11/2009, 09h25

Bonjour,

Je suis en 9.2.

Merci

**xdescamp** · 30/11/2009, 14h22

Il me semble que dans le cas d'une base en UTF-8, les caractères spéciaux sont effectivement stockés sur 2 octets alors que la plupart des caractères courants ne le sont que sur 1 octet.
Du coup, en utilisant la fonction LENGTHB(...), il y a peut-être moyen de faire une fonction qui retirerait les caractères chinois.

**pierre.coudert** · 01/12/2009, 12h36

Effectivement vous avez raison, les caractères chinois sont codés sur 2 octets.

Du coup, contre mauvaise fortune bon coeur, je contrôle chaque caractère et si celui-ci n'est pas un caractère romain, je ne renvoie rien :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
 
select test1||test2||...||test20
from(
select
case when SUBSTR(codefamille,1,1) not in ('a','b','c','d','e','f','g','h','i','j','k','l','m'
,'n','o','p','q','r','s','t','u','v','w','x','y','z','A','B','C','D','E','F','G','H','I','J','K','L','M'
,'N','O','P','Q','R','S','T','U','V','W','X','Y','Z','1','2','3','4','5','6','7','8','9',' ','-','/') then ''
else  SUBSTR(libclassprod3,1,1)
end as test1
,
case when SUBSTR(codefamille,2,1) not in('a','b','c','d','e','f','g','h','i','j','k','l','m'
,'n','o','p','q','r','s','t','u','v','w','x','y','z','A','B','C','D','E','F','G','H','I','J','K','L','M'
,'N','O','P','Q','R','S','T','U','V','W','X','Y','Z','1','2','3','4','5','6','7','8','9',' ','-','/') then ''
else  SUBSTR(libclassprod3,2,1)
end as test2
,
...
,
case when SUBSTR(codefamille,20,1) not in ('a','b','c','d','e','f','g','h','i','j','k','l','m'
,'n','o','p','q','r','s','t','u','v','w','x','y','z','A','B','C','D','E','F','G','H','I','J','K','L','M'
,'N','O','P','Q','R','S','T','U','V','W','X','Y','Z','1','2','3','4','5','6','7','8','9',' ','-','/') then ''
else  SUBSTR(codefamille,20,1)
end as test20
from famille
where codefamille=234)

Si quelqu'un a une meilleure solution, je suis preneur

merci bien

**Waldar** · 01/12/2009, 13h33

Vous pouvez je pense vous inspirer de ce sujet pour trouver une solution plus efficace :
http://www.developpez.net/forums/d82...cherche-texte/

Invité · 01/12/2009, 15h01

Avec ta solution, tu zappes les caractères accentués.
Est-ce que les caractères chinois ne sont pas dans un range particulier dans les codes ascii ? Ça serait plus simple à vérifier.

Je me souviens d'un problème dans un enregistrement du à un espace "japonnais" qui n'avait pas le même code ascii qu'un espace "standard"... Pour trouver ça, ça avait pris du temps...

**pierre.coudert** · 02/12/2009, 11h00

j'ai essayé la fonction translate, c'est très efficace sauf pour quelques idéogrammes, je n'ai aucune idée pourquoi ???

En fait, je n'ai pas à gérer les caractères accentués puisque les libellés sont en anglais et chinois. Par contre, si j'utilise la fonction ASCII, je vais me retrouver dans le même cas qu'avec SUBSTR à savoir je vais devoir tester caractère par caractère et non une chaine de plusieurs caractères.

En tout cas, merci de votre aide.

Invité · 02/12/2009, 16h05

Envoyé par pierre.coudert

En fait, je n'ai pas à gérer les caractères accentués puisque les libellés sont en anglais et chinois. Par contre, si j'utilise la fonction ASCII, je vais me retrouver dans le même cas qu'avec SUBSTR à savoir je vais devoir tester caractère par caractère et non une chaine de plusieurs caractères.

Il n’est pas rare de rencontrer des caractères accentués en anglais du à des emprunts dans d’autres langues coMme l’expression « à la » par exemple…
Pour ce qui est du code ascii, je pensais que les idéogrammes chinois étaient dans une fourchette précise mais c’est à confirmer…

différencier caractères romains des caractères chinois

SQL Oracle

Discussions similaires

Partager

Partager