Problème d'affichage de certain caractère UTF-8

Version imprimable

Bonjour,

Je dois faire de l'extraction de donnée à partir d'un site web, ce site est en encodé en UTF-8.

Pour 95% des caractères spéciaux je les décodes sans problèmes via :
Code:

1 2 3 4 5 6 7 8 9 10 11 public static String UTF8Decode( String sText ) { Byte[] utf8Bytes = new Byte[ sText.Length ]; for ( int i = 0; i < sText.Length; ++i ) { utf8Bytes[ i ] = ( Byte )sText[ i ]; } return Encoding.UTF8.GetString( utf8Bytes, 0, utf8Bytes.Length );//.ToString(); }
Que j'utilise de la manière suivante :

Code:

UTF8Decode( System.Net.WebUtility.HtmlDecode( sInnerText ) )

Or c'est suffisant pour la plus part des caractères mais pas pour :
"Maḥfūẓ, Najīb" <= Dans ce cas seul le "z pointé" fail.
Et je vois "�"

Je soupçonne le code

Code:

utf8Bytes[ i ] = ( Byte )sText[ i ];

parce qu'en UTF-8 un caractère fait 8, 16 ou 32 bits et pas toujours un Bytes... J'ai essayé de convertir la source en UTF16/Unicode... Mais rien n'y fait...

Le code est en C#, mais c'est la même chose quelque soit le langage .NET.

Merci

Est-ce que ce bout de code trouvé très facilement répond à la question ?
Code:

1 2 3 4 5 6 7 8 9 public static string Utf16ToUtf8(string utf16String) { // Get UTF16 bytes and convert UTF16 bytes to UTF8 bytes byte[] utf16Bytes = Encoding.Unicode.GetBytes(utf16String); byte[] utf8Bytes = Encoding.Convert(Encoding.Unicode, Encoding.UTF8, utf16Bytes); // Return UTF8 bytes as ANSI string return Encoding.Default.GetString(utf8Bytes); }
Après attention, un String en DotNet est, me semble-t-il, en UTF-16 (Unicode) quoi qu'il arrive. L'encodage intervient lorsque des octets (byte[]) sont issus d'une chaîne de caractères. Voir l'aide sur Encoding.Convert().

13/05/2013, 02h24
tomlev

Moi ce qui me semble louche c'est que tu aies besoin de cette fonction UTF8Decode, car ce type de fonction n'a pas vraiment de sens en .NET.

A partir du moment où tu manipules du texte sous forme de string, tu n'es plus supposé avoir à te préoccuper de l'encodage. En interne, une string en .NET est toujours en UTF-16, mais c'est juste un détail d'implémentation, tu n'as généralement pas besoin d'en tenir compte ; là où tu dois te préoccuper de l'encodage, c'est lorsque tu lis du texte depuis un flux binaire (ou que tu écris vers un flux binaire). Si le texte dans la string en entrée de la méthode n'est pas bon, c'est qu'au départ il n'a pas été lu avec le bon encodage, et donc tu as déjà perdu des données : aucune conversion ne pourra récupérer des données perdues...

A mon avis, tu as lu le contenu de la page web avec l'encodage ISO-8859-1 alors qu'en fait c'est de l'UTF-8 (ou inversement). Il faut régler le problème en amont, au niveau de la lecture du texte, car une fois que c'est une string, il est trop tard pour régler le problème.
14/05/2013, 03h41
SKone
Et bien merci !
Le code ne change rien parce que cela venait de l'Input.
Comme on dit "Shit In => Shit Out"

Je téléchargeait la page web via :
System.Net.WebClient.DownloadString Or je n'avais pas spécifié l'encodage.
Maintenant que j'ai fais :
Code:

1 2 3 WebClient oWebClient = new WebClient(); oWebClient.Encoding = Encoding.UTF8; sWebPageContent = oWebClient.DownloadString( sCurrentURL );
Tout va mieux...

[Résolu]