Lire gros fichier en Unicode: UniHan

**Pierebean** · 23/01/2013, 16h48

Dear MATLAB lovers,

J'aime bien jouer avec les caractères chinois en hobby.

Ainsi je voudrais ouvrir la base de donnée UniHan afin de jouer avec.

Le problème est que cette table est encode en Unicode UTF-8.

Quand j’essaie de lire cette table dans MATLAB, ce dernier m’embête et m'affiche n'importe quoi pour certain caractères (les accents, les Kanji ect..).

Voici la table: http://www.unicode.org/Public/UNIDATA/Unihan.zip

J'essaie de lire le fichier "Unihan_Readings.txt" dans ce fichier zip. Je voudrais faire trois colonnes de strings:

-une qui comprend le code Unicode du Kanji/Hanzi
-une qui comprends le qualificatif de l’entrée (e.g. 'kDefinition')
-une qui comprends l’entrée (e.g. '(same as U+4E18 丘) hillock or mound')

Avec, Notepad++, J'ai enlevé les 26 premières lignes du fichiers "Unihan_Readings.txt" (et les trois dernières)
et je l'ai appelé le nouveau fichier tronqué: "Unihan_Readings2.txt"

Pour info voici mon code actuel:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
close all
clc
clear all
 
[f,msg]=fopen('Unihan_Readings2.txt','r','n','UTF-8');
txt=fscanf(f,'%c');
clear f
clear msg
LIGNES=textscan(txt,'%s %s %s' , 'delimiter', '\t','bufsize',100000095);

Quand j'affiche : LIGNES{3}(2) il me donne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

'(same as U+4E18 ) hillock or mound'

au lieu de:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

'(same as U+4E18 丘) hillock or mound'

Merci de votre aide

**Jerome Briot** · 26/01/2013, 17h44

J'ai déjà répondu plusieurs fois sur le forum sur le même sujet avec des caractères en langue arabe.

Le soucis vient du système d'exploitation, pas de MATLAB.

1) Fermer MATLAB

2) Sous Windows 7 : Menu "Démarrez > Panneau de configuration > Horloge, langue et région > Région et langue" puis choisir le bon format et cliquer sur Appliquer

3) Ouvrir MATLAB, et exécuter le code suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
fid = fopen('Unihan_Readings.txt','r','n','UTF-8');
   X = textscan(fid,'%s','headerlines',26,'delimiter','\n');
fclose(fid);

ce qui retourne par exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
>> X{1}{2}
 
ans =
 
U+3400	kDefinition	(same as U+4E18 涓?) hillock or mound

J'ai choisi Chinois simplifié, ce n'est donc pas le même idéogramme mais à toi de fouiller dans les options de Windows.

Lire gros fichier en Unicode: UniHan

MATLAB

Discussions similaires

Partager

Partager