Lecture d'un fichier UTF-16 Little Endian sous MSVC et MinGW/g++

**Grool** · 18/09/2018, 14h00

Bonjour

Le code suivant ouvre un flux sur un fichier écrit en UCS-2 / UTF-16LE avec un BOM.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
 
// Lecture UTF16-LE / UCS-2
	wifstream UTFStream("MonFichier.s");
	wchar_t buffer[16];
	wstring headerString;
 
	UTFStream.read(buffer, 2); // Lecture du BOM
	UTFStream.imbue(locale(UTFStream.getloc(), new codecvt_utf16<wchar_t, 0xffff, little_endian>()));
	UTFStream.read(buffer, 16);
	getline(UTFStream, headerString);
 
	wcout.imbue(locale(UTFStream.getloc(), new codecvt_utf8<wchar_t, 0xffff, little_endian>()));
	wcout << buffer << endl;
	wcout << headerString << endl;

Sous Visual C++, le buffer de wchar_t ou la wstring sont correctement lus et affichés.

Par contre MinGW et g++ lit le buffer comme s'il s'agissait d'un tableau de char, avec un caractère sur deux égal à 0x00.
J'ai lu que gcc/g++ a supporté tardivement les jeux de caractères UTF16 mais j'ai la version 6.3.0 qui devrait être à jour.

Si je ne lis pas le BOM avant d'appliquer la locale par imbue, la fonction read ne lit rien du tout sur g++ alors que Visual C++ alimente le buffer avec buffer[0] = BOM.

La modification de la locale d'un flux de fichier et les conversions Unicode sont-elles spécifiées dans la norme ou est-ce sujet à l'implémentation de chaque compilateur et donc non portable?

Merci

**Grool** · 20/09/2018, 14h05

Bonjour

J'ai eu l'occasion de faire un test sommaire avec GCC sur Linux. Ça ne fonctionne pas encore comme Visual C++ (problème avec un fichier qui possède un BOM) mais j'arrive bien à lire des caractères larges, conformément à ma facette.
Il semble donc que mon problème provienne de l'implémentation de la bibliothèque standard fournie avec MinGW.

A noter que le GCC utilisé sous Fedora était une version 7.1.1. MinGW-get m'indique que la version de mingw32-libstdc++ sur leur repository est bloquée à la 6.3.0-1.
Y a-t il un moyen de tester une version plus récente?

**Bktero** · 21/09/2018, 08h21

Utilises-tu MinGW (http://www.mingw.org/) ou Mingw-64 (https://sourceforge.net/projects/mingw-w64/) ? Le 2e est normalement plus à jour, tu devrais avoir du gcc 7 au minimum.

**Matt_Houston** · 21/09/2018, 09h08

As-tu tenté d'ouvrir le fichier en mode binaire ?

**Grool** · 24/09/2018, 16h07

Bonjour

Merci pour ces réponses.

Ouvrir en mode Binaire n'apporte rien.
J'ai même tenté ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
wifstream UTFStream("test_utf16.txt", ios::binary);
wchar_t w;
UTFStream.read(reinterpret_cast<wchar_t*>(&w), sizeof(wchar_t));

Passer de MinGW à MinGW-w64 fonctionne en revanche. Je l'ai essayé en mode i686 avec GCC v8.1.0.

Par contre, par rapport au code du premier message, j'ai dû faire quelques modifications.
C'est plutôt déconcertant, mais wcout n'accepte pas de caractères larges par défaut.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

wcout << L"abc€" << endl;

provoque l'armement du failbit et du badbit de la sortie standard, sur MinGW-w64 comme sur Visual C++

Je n'ai pas trouvé de solution portable.
On peut écrire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
#include <fcntl.h>
#include <windows.h>
 
_setmode(_fileno(stdout), _O_U16TEXT);

Il est alors possible d'utiliser wcout sous Visual C++.
Par contre, avec MinGW-w64, on ne peut utiliser que la fonction C wprintf.

La solution qui fonctionne avec les deux compilateurs : utiliser l'API Windows.
Ce qui donne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
// Lecture UTF16-LE / UCS-2
wifstream UTFStream("test_utf16.txt");
wchar_t buffer[16];
wstring headerString;
 
UTFStream.read(buffer, 2); // Lecture du BOM
UTFStream.imbue(locale(UTFStream.getloc(), new codecvt_utf16<wchar_t, 0xffff, little_endian>()));
UTFStream.read(buffer, 15);
buffer[15]=0;
getline(UTFStream, headerString);
 
WriteConsoleW(GetStdHandle(STD_OUTPUT_HANDLE), buffer, wcslen(buffer), NULL, NULL);
wcout << endl;
WriteConsoleW(GetStdHandle(STD_OUTPUT_HANDLE), headerString.c_str(), headerString.size(), NULL, NULL);
wcout << endl;

Lecture d'un fichier UTF-16 Little Endian sous MSVC et MinGW/g++

SL & STL C++

Discussions similaires

Partager

Partager