Dear MATLAB lovers,
J'aime bien jouer avec les caractères chinois en hobby.
Ainsi je voudrais ouvrir la base de donnée UniHan afin de jouer avec.
Le problème est que cette table est encode en Unicode UTF-8.
Quand j’essaie de lire cette table dans MATLAB, ce dernier m’embête et m'affiche n'importe quoi pour certain caractères (les accents, les Kanji ect..).
Voici la table: http://www.unicode.org/Public/UNIDATA/Unihan.zip
J'essaie de lire le fichier "Unihan_Readings.txt" dans ce fichier zip. Je voudrais faire trois colonnes de strings:
-une qui comprend le code Unicode du Kanji/Hanzi
-une qui comprends le qualificatif de l’entrée (e.g. 'kDefinition')
-une qui comprends l’entrée (e.g. '(same as U+4E18 丘) hillock or mound')
Avec, Notepad++, J'ai enlevé les 26 premières lignes du fichiers "Unihan_Readings.txt" (et les trois dernières)
et je l'ai appelé le nouveau fichier tronqué: "Unihan_Readings2.txt"
Pour info voici mon code actuel:
1 2 3 4 5 6 7 8 9
| close all
clc
clear all
[f,msg]=fopen('Unihan_Readings2.txt','r','n','UTF-8');
txt=fscanf(f,'%c');
clear f
clear msg
LIGNES=textscan(txt,'%s %s %s' , 'delimiter', '\t','bufsize',100000095); |
Quand j'affiche : LIGNES{3}(2) il me donne:
'(same as U+4E18 ) hillock or mound'
au lieu de:
'(same as U+4E18 丘) hillock or mound'
Merci de votre aide
Partager