Problème Unicode en C

**Twindruff** · 19/09/2009, 11h17

J'ai pas lu entièrement ton code mais il faut que tu fasses attention, la console que t'as sous windows (cmd.exe) elle n'affiche que de l'ASCII.
Tu peux rediriger la sortie du programme vers un fichier pour vérifier:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

programme > sortie

Et ensuite lire le fichier sortie avec un editeur de texte qui sait lire l'utf8.

**Médinoc** · 19/09/2009, 12h40

_tcscmp(), c'est pour comparer des chaînes de TCHAR. Pour comparer des chaînes de wchar_t, utilise wcscmp().

Hélas, il n'y a rien dans la bibliothèque C standard, ni dans celle de GCC, qui permette d'écrire réellement en wchar_t dans un flux, à part l'écriture binaire.

Par contre, Visual Studio 2005 et supérieurs possèdent une extension de fopen() permettant ça.

**freeseif** · 19/09/2009, 16h20

Salut les programmeurs,

Très bon idée monsieur Twindruff, oui je vais bien utilise cette méthode de écrire résultat dans un fichier texte, mais le problème maintenant c'est dans le code, je peux pas comparai deux chaînes Unicode

J'ai utilise monsieur Médinoc la fonction wcscmp() mais la même résultât, "Non"

Lire Fichier Texte
Si " ب " écrire "Oui"
Sinon écrire "Non"

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
TCHAR LINE[1024];
 ...
_wfopen() / _tfopen()
 ...
LINE = Premier Ligne..
 ...
 if ( _tcscmp ( TEXT( "ب" ) , LINE ) == 0 )
  { wprintf ( _TEXT ( "Oui" )); }
 else
  { wprintf ( L "Non" ); }

Toujours résultat est "Non."

J'ai tester _wcscmp(), _tcscmp(), wchar_t, TCHAR, _wfopen(), _tfopen(), _TEXT(""), L"", compilation aucun erreur, mais toujours comparaison fini par "Non" même le fichier contiens "ب"

--------------------------------------------------

BUT RÉSUMER:
Savoie si fichier texte (UTF8/UNICODE) contiens character "ب" ou non.

PROBLÈME RÉSUMER:
toujours comparaison fini par "Non" même le fichier contiens "ب"

**Médinoc** · 19/09/2009, 19h03

Le problème, c'est que même les fonctions "w" de fichiers ne sont pas vraiment prévues pour lire des fichiers en Unicode.

Tu peux t'en sortir sous Visual 2005 avec une extension, mais si tu veux que ça marche ailleurs, tu vas devoir faire de la lecture binaire...

**freeseif** · 19/09/2009, 20h00

Salut les programmeurs,

Je peux pas utilise d'autre compilateur que GCC!
Est ce que je peux vraiment lire des chars Unicode en mode binaire ? si non c'est possible avec C++ ?

**Médinoc** · 19/09/2009, 21h41

Lire en binaire sur l'entrée standard, je ne sais pas.
Mais lire en binaire sur un fichier, tout-à-fait: Il suffit que le fichier soit en UTF-16 LE, ce qui est l'encodage unicode "par défaut" sous Windows...

**freeseif** · 19/09/2009, 23h41

Salut les programmeurs,

Oui tu es raison monsieur Médinoc, lecture en mode binaire permet de comparer deux string Unicode

Crée fichier "test.bin" en mode binaire
Crée dans fichier "ب"
Lire fichier "test.bin" en mode binaire
si fichier contiens "ب" afficher "Oui"
si non afficher "Non"

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
 wchar_t buffer_bin[20];
 wchar_t chracter[20]= L"ب";

 FILE *handleWriteBin=_wfopen(L"test.bin",L"wb");
 fwrite(chracter, 1, 13, handleWriteBin);
 fclose(handleWriteBin);

 FILE *handleReadBin=_wfopen(L"test.dat",L"rb");
 fread(buffer_bin,1,13,handleReadBin);
 fclose(handleReadBin);
 
 if( wcscmp ( L"ب" , buffer_bin ) == 0 )
      { wprintf(L"Oui.\n");  }
 else { wprintf(L"Non.\n",buffer); }

Résultat: "Oui" Bravo monsieur Médinoc

Alors pour utilise cette lecture en mode binaire dans mon projet j'ai fait cette méthode:

Lire fichier "monfichier.txt" en mode UTF8
Ecrire Text_UTF8 dans fihcier "test.bin" en mode binaire
Lire fichier "test.bin" en mode binaire
si fichier contiens "ب" afficher "Oui"
si non afficher "Non"

Ça veux dire Lecture en mode UTF8, Enregistrer le dans TEST.BIN en mode Binaire, Lecture TEST.BIN en mode binaire, comparer.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
// Lire monfichier.txt en mode UTF8
infile=_wfopen(L"monfichier.txt",L"r,ccs=UTF-8");

 line_number=0;
 while( fgetws(buffer_utf8,sizeof(buffer_utf8),infile)!=NULL)
 {
  ++line_number;
  // cherche fin du ligne 
  LINE_LEN=wcslen(buffer_utf8)-1;
  if(buffer_utf8[LINE_LEN]=='\n') { buffer_utf8[LINE_LEN]=0; }
  
  // Afficher ligne du fichier UTF8, c'est pas le but...
  wprintf(L"Read UTF8[%d]: '%s' - ",line_number,buffer_utf8);
  
 // Ecrire ligne dans test.bin en mode binair
 FILE *handleWrite=_wfopen(L"test.bin",L"wb");
 fwrite(buffer_utf8, 1, 13, handleWrite);
 fclose(handleWrite);
 
 // Lecture fichier test.bin en mode binaire pour comparer (marche très bien avec test d'ancien test.bin)
 FILE *handleReadBin=_wfopen(L"test.bin",L"rb");
 fread(buffer_bin,1,13,handleReadBin);
 wprintf(L"Read Bin: '%s' - \n",buffer_bin);
 fclose(handleReadBin);
 
 //Comparer
 if( wcscmp ( L"ب" , buffer_bin ) == 0 )
      { wprintf(L"Oui.\n");  }
 else { wprintf(L"Non.\n",buffer); }
 }
 fclose(infile);

Résultat: "Non"

.

J'ai tester avec le ancien fichier test.bin (sortie du premier code) résultat "Oui", c'est a dire que écriture/lecture/comparer en mode binaire est bon, mais problème c'est encore la même... je peux pas lire string UTF8 est le mettre dans buffer

**Médinoc** · 20/09/2009, 15h20

Sous Windows, on utilise UTF-16, pas UTF-8.

UTF-8 ne marche qu'en de rares endroits, notamment dans les fonctions WideCharToMultiByte() et MultiByteToWideChar(), qui servent à convertir entre ASCII étendu et UTF-16.

**freeseif** · 20/09/2009, 18h59

Salut les programmeurs,

J'ai tester UTF-16 LE BOM, UTF-16 BE BOM, UTF-16 LE, UTF-16 BE mais toujours résultat "Non"

Si non, il y a aucun solution avec des librairies ? ou en C++ ?
(Avec Compilateur GCC toujours)

**Médinoc** · 20/09/2009, 19h40

Attends, tu utilises toujours fgetws() ? Quand je disais "lecture binaire", je parlais d'utiliser fread()...

**freeseif** · 20/09/2009, 19h54

Salut les programmeurs,

Si j'ai la utilise, il est déjà écris dans tous mes dernier codes poster!

J'ai fichier TEST.TXT (UTF-16).
Je veux lire ce fichier est savoir si contiens "ب" ou non.

J'ai li ce fichier en mode binaire comme vous me dit monsieur Médinoc

Lecture

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
wchar_t buffer_bin[20];

FILE *handleReadBin=_wfopen(L"TEST.TXT",L"rb");
   fread(buffer_bin,1,13,handleReadBin);
 fclose(handleReadBin);

Comparer

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 if( wcscmp ( L"ب" , buffer_bin ) == 0 ) { wprintf(L"Oui.\n");  }
 else { wprintf(L"Non.\n"); }

Résultat:
Non.

**Médinoc** · 20/09/2009, 20h37

utilise sizeof(wchar_t) au lieu de 1.

**freeseif** · 20/09/2009, 21h37

Salut les programmeurs,

J'ai tester sizeof(wchar_t) mais même résultat, je sais pas ou problème, peut être dans lecture ou dans comparaison !

Voila fichier TXT.TXT
http://saif-technology.com/test.txt

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

ب

Voila fichier code source
http://saif-technology.com/program.c

**freeseif** · 22/09/2009, 23h29

Salut les programmeurs,

J'ai fait deux nuit blanche pour trouver une solution de mon problème

, (lire fichier Unicode ligne par ligne), j'ai rien trouver que une seul solution Stupide

La Solution Stupide :

Ouvrire un fichier avec fopen() "code.c" est écrire dedans:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
...
int main(){
wchar_t buffer[20];
wchar_t temp[20]= L"

Copier le contenu du fichier Unicode a notre fichier code.c par une commande MSDOS:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
```
system("copy code.c+manfichier.txt /B");
```

Ajouter du code au fichier code.c:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
";
FILE *handleWrite=_wfopen(L"test.dat",L"wb");
fwrite(temp, 1, 13, handleWrite);
fclose(handleWrite);return 0;}

Résultat dans fichier code.c:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
int main(){
wchar_t buffer[20];
wchar_t temp[20]= L" [ ICI LE CONTENU DU FICHIET manfichier.txt ] ";
FILE *handleWrite=_wfopen(L"test.dat",L"wb");
fwrite(temp, 1, 13, handleWrite);
fclose(handleWrite);return 0;}

En compile fichier code.c est il nous crée fichier test.dat en mode binair qui contien text du fichier Unicode !!! !!! ... Bon je sais que c'est Stupide, Long, mais c'est la seul solution a lire un fichier Unicode dans mon cas.

Résumer du La Solution Stupide:
Convertir fichier texte Unicode "manfichier.txt" a fichier binaire "test.dat".

===============================================

Je pensez maintenant tous simplement a chercher une solution en C qui convertir un fichier texte Unicode a un fichier binaire sans lire le contenu du fichier texte Unicode !, c'est possible ?

**Médinoc** · 23/09/2009, 09h51

Pour lire un fichier UTF-16 ligne par ligne, le mieux est de le lire en binaire avec fread() wchar_t par wchar_t jusqu'à ce que tu tombes sur un L'\n'...

**freeseif** · 25/09/2009, 01h00

Salut les programmeurs,

J'ai fait mon possible pour le lire, j'ai bien chercher dans le net, mais j'arrive pas

Sil vous plaît monsieur Médinoc vous pouvez me donner un petite exemple ?

Problème Unicode en C

Windows

Discussions similaires

Partager

Partager