Comment découper une chaine de caractère chinois, japonais, thai ?

**pepito62** · 08/02/2010, 20h53

Bonjour tout le monde !

Voilà, j'aimerais savoir comment découper correctement une chaine chinoise, japonaise, thai...

Je m'explique, dans mon programme j'effectue du découpage de chaine.

Pour cela, j'utilise les fonctions Copy, Pos, Length...

Pour du français, il n'y a aucun problème car 1 caractère = 1 octet.

Pour du chinois, du japonais ou du thai, c'est plus compliqué car 1 caractère peut aller jusqu'à 4 octets.

* Il faut que j'arrive à découper la chaine japonaise correctement, par exemple, pour que le dernier idéogramme soit correct.

Auparavant j'utilisais Delphi 6 et les composants d'affichage ne gère pas l'unicode. De ce faite, j'ai décidé d'utiliser Delphi 2010.
http://dgriessinger.developpez.com/d...i2009-unicode/

Selon vous, comment dois-je faire pour couper une chaine ? en tenant compte de ma contrainte ? Cf. *

Exemple (ici chinois):
Chaine:= 'ㅈㅈㅈㅈ';
Length('ㅈ') égale 2.
Length('ㅈㅈㅈㅈ') égale 8.

Lorsque j'effectuer Copy('ㅈㅈㅈㅈ', 1, 3) je n'obtiens pas : ㅈㅈㅈ

Comment faire ?
Attention, pour le thai je peux avoir des caractères sur 2 octets et d'autres, sur octets.

**ShaiLeTroll** · 09/02/2010, 10h21

Je n'ai plus ma Trial Delphi 2009 et je n'ai même pas encore installé Delphi 2010 Architect, je ne pourrais que t'aider théoriquement

On peut penser que Copy est rester Ansi
On peut espérer qu'il y ait un équivalent AnsiLeftStr comme UniCodeLeftStr\WideLeftStr

Par Attention, les chaines Delphi sont en UniCode 16 Bits (UTF-16 je crois) !
Ce n'est pas de l'UTF-8, donc cela ne varie pas de 1 à 4 mais resté à 2 tout le temps

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Copy(chaine, 1 * SizeOf(Char), 3 * SizeOf(Char))

**Dr.Who** · 09/02/2010, 20h50

en fait il s'est mal exprimé, par "taille des caractères" il faut comprendre longueur en caractères d'un logogramme ce qui ne devrait pas poser de problèmes tout étant bien définit en asie ... ou presque.

bref, cela rend l'exercice asse acrobatique tout de même, sauf peut être pour le coréen moderne qui s'écrit avec une ponctuation occidentale.
mais entre les kanji, kana, katakanas, hiraganas, rômaji, hanja, gairaigo, kango, etc, je suis curieux de voir la tête de la fonction au final.

même google à du mal :
龍剣によって、言葉で傷つけることは死んだしていません。

ce qui devrait être :
Le dragon qui ne périt pas par l'épée peut tout de même être blessé par les mots.

**pepito62** · 13/02/2010, 11h11

Merci de vos réponses.

On peut penser que Copy est rester Ansi
On peut espérer qu'il y ait un équivalent AnsiLeftStr comme UniCodeLeftStr\WideLeftStr

- C'est justement ce que je cherche : je ne sais pas s'il existe de nouvelle fonction permettant de gérer correctement les caractères sur plusieurs octets. En tout cas, je ne les ai pas trouvé. Si vous savez quoi utiliser, n'hésiter pas.
- De plus, j'ai une version Trial de Delphi 2010 et je n'arrive pas à avoir l'aide.

Par Attention, les chaines Delphi sont en UniCode 16 Bits (UTF-16 je crois) !
Ce n'est pas de l'UTF-8, donc cela ne varie pas de 1 à 4 mais resté à 2 tout le temps

- Je ne sais pas comment sont codé les chaines en Delphi..., j'ai une problématique, j'essai de la résoudre. Mais c'est toujours bon à savoir. C'est une certitude ce que tu dis ?

Copy(chaine, 1 * SizeOf(Char), 3 * SizeOf(Char))

- Ceci ne fonctionne pas.
- Dans mon cas, Char = 2
- Ma chaine = ชั่
- Il tronque ma chaine à partir du 2e octets et copie les 6 octets suivant
=> La solution serait de commencer à 1 et de copier les X octets défini pour ce caractère ชั่.
Attention car si j'écris la chaine japonaise : ชั่か
ชั่ = 3 octets
か = 1 octet

**Andnotor** · 13/02/2010, 14h45

Envoyé par pepito62

Attention car si j'écris la chaine japonaise : ชั่か
ชั่ = 3 octets
か = 1 octet

Tu mélanges un peu

.

Le premier "mot" est thaïlandais et contient 3 char (6 octets), 1 consonne et 2 voyelles. Dans cette langue, les voyelles peuvent s'écrire au dessus d'une consonne.

Le deuxième est lui japonais, 1 char (2 octets).

Envoyé par pepito62

Exemple (ici chinois):
Chaine:= 'ㅈㅈㅈㅈ';
Lorsque j'effectuer Copy('ㅈㅈㅈㅈ', 1, 3) je n'obtiens pas : ㅈㅈㅈ

Euhh. Ca c'est du coréen...

J'ai fait un essai de copie sous D2009 et la longueur renvoyée est correct (4 char) et la copie fonctionne !
Sinon, tu as des fonctions pour travailler en multi-bytes dans SysUtils.pas et Character.pas. CharToByteIndex, CharLength, etc.

**pepito62** · 13/02/2010, 21h01

Merci pour la clarification Andnotor.

En effet, je mélange un peu tout

Pour être clair :
On va dire que j'ai une form avec un TEdit.
- On peux saisir du français, du chinois, du thai, du japonais... (en fonction du pays où mon logiciel est utilisé)
(Mais une seule langue à la fois, pas de mélange)
Ceci est sauvegardé dans une Base De Donnée Oracle.

Ensuite, j'ai une autre form qui permet d'extraire les infos de la BDD pour la sauvegarder dans un fichier.
Dans le fichier, l'information doit être tronquer sur 5 caractères.

Ma problématique est :
Comment récupérer les 5 premiers caractères afin que ceci fonctionne si c'est du
- français (1 octet)
- chinois (certain caractère peut être codé sur 2 octets)
- thai (certain caractère peut être codé sur 3 ou 4 octets, à vérifier)
- japonais (certain caractère peut être codé sur 3 ou 4 octets, à vérifier)
...

Quel fonction me conseilles-tu ?
Je n'ai jamais utilisé CharToByteIndex ou CharLength, ou puis-je avoir de l'aide sur les fonctions ?

PS : Avec la Trial de Delphi 2010, je n'ai pas les sources , je ne possède que les Dcu. Idem pour l'aide, il me marque un message d'erreur et me dit que l'aide n'est pas installé.

Merci

**Andnotor** · 14/02/2010, 01h18

Bon, la première chose, et là je rejoint Shai, tout tes symboles sont codés sur 16 bits. Il faut cesser de réfléchir sur 1, 2,... octets et même faire abstraction de la langue.

Length, Copy, etc. fonctionnent correctement en unicode.
Si tu as des erreurs de copie, je regarderais plutôt la façon dont sont extraites et gérées le données depuis Oracle.

Travailler avec les langues asiatiques est pour le moins compliqué. Se dire je tronque au 5ème caractère peut donner à la phrase une toute autre signification... qui ne sera pas du tout la logique latine ! A quoi peuvent bien servir ces 5 caractères dans un fichier ? Un index ?

En d'autres termes, le plus simple serait que tu nous dises la finalité du truc.

**pepito62** · 14/02/2010, 09h23

Length, Copy, etc. fonctionnent correctement en unicode.
Si tu as des erreurs de copie, je regarderais plutôt la façon dont sont extraites et gérées le données depuis Oracle.

Le libellé dont je parle est un nom produit.
Delphi : TEdit (MaxLength : 200)
Oracle : Colonne varchar2(200)

D'oracle, je récupère toute la chaine et lors de mon extraction, je dois tronquer le libellé. Car le fichier généré est envoyé à un autre logiciel.
Mon logiciel : NomProduit (200 caracteres)
Autre logiciel : NomProduitCourt (100 caracteres)

Il faut le prendre comme une contrainte. Il est impossible d'agrandir le NomProduitCourt de l'autre logiciel. Et impossible de réduire NomProduit car les utilisateurs n'accepterons pas.

Travailler avec les langues asiatiques est pour le moins compliqué. Se dire je tronque au 5ème caractère peut donner à la phrase une toute autre signification... qui ne sera pas du tout la logique latine ! A quoi peuvent bien servir ces 5 caractères dans un fichier ? Un index ?

En d'autres termes, le plus simple serait que tu nous dises la finalité du truc.

Voilà tout mon problème. Je suis bien d'accord que tronqué en plein milieu d'une chaine ne donnera pas la même signification.

=> C'est pour cela que je dois tronquer la chaine correctement afin d'avoir tous les "idéogrammes" en entier.
Le problème se pose surtout avec du thai, du japonais...car le symbole est codé sur + de 16 bits.
Exemple, comme tu l'as dit : ชั่ = 1 consonne et 2 voyelles

Soit je prends ce dernier caractère ชั่, en entier (1 consonne et 2 voyelles), soit je m'arrête au précédent.

**Montor** · 14/02/2010, 11h49

Petite question si on change SysLocale.FarEast à true va-t-il changer le comportment de la macro SizeOf ?

**Andnotor** · 14/02/2010, 12h03

Certainement pas puisque SizeOf n'est ni une macro, ni une fonction mais un élément syntaxique qui permet de déterminer la taille d'une variable à la compilation.

**pepito62** · 14/02/2010, 16h30

Andnotor,

En vue de mes réponses apportées.

Comprends-tu mieux ma problématique ? As-tu encore des questions ? Que me conseilles-tu, etc. ?

Merci

**pepito62** · 14/02/2010, 17h37

Sinon je parlais d'un besoin de tronquer le nom produit lors de la génération d'un fichier mais il existe X cas comme celui-ci.

Par exemple :
- dans une édition, il y a tellement d'information sur la page que nous devons tronquer certaines informations, le nom produit en fait partie.

**Andnotor** · 15/02/2010, 10h52

Désolé, mais là je sèche...

**pepito62** · 16/02/2010, 09h16

Mais comment font les thailandais lorsqu'ils créent un programme ? Ils utilisent jamais de substr, copy, length...Ya bien un moyen !

Sinon avant de poster ici, j'avais déjà poster dans la partie algo. Et certaine personne m'ont dit de décoder les bits du caractère.

http://www.developpez.net/forums/d86...i/#post4930411

J'ai essayé mais apparemment, la méthode ne fonctionne pas. Quelques choses vous éclaire ?

Sinon pour info, ma base oracle est paramétré en utf8. AL32UTF8.

Comment découper une chaine de caractère chinois, japonais, thai ?

Langage Delphi

Discussions similaires

Partager

Partager