Encodage caractère arabes

**123quatre** · 02/02/2011, 12h19

Bonjour,

j'ai codé une routine qui récupère via xpath et domdocument du contenu mixte (arabe et français mélangés) d'un site externe (légal hein ^^) dont les pages sont encodée en windows-1256. Je traite ensuite les données pour les convertir en utf8, et c'est là que j'ai un problème: les caractères arabes sont transformé en caractère spéciaux html sauf le texte en français:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$texte='bonjour إن تفسير ابن';
echo $texte = utf8_encode(html_entity_decode(getContentHTML($desc), ENT_QUOTES));

Je ne vois pas pourquoi la fonction html_entity_decode ne decode pas les entités html arabes ?

Racisme php ?

**julp** · 02/02/2011, 13h37

Il ne faudrait peut être pas oublier de consulter la documentation : les fonctions html_entity_decode, htmlentities, htmlspecialchars, à moins de leur indiquer le charset via l'argument prévu, considèrent les données comme étant encodées en ISO-8859-1. Sinon, il ne faut pas s'étonner du résultat ...

Cependant, quel intérêt à encoder les caractères en entités HTML, surtout quand on utilise justement Unicode ? (et pour rappel, DOM comme toute extension basée sur libxml2, attend/renvoie de l'UTF-8)

Encodage caractère arabes

Langage PHP

Discussions similaires

Partager

Partager