Précédent   Forum des professionnels en informatique > PHP > Langage
Langage Forum sur le langage PHP, la POO, les conventions, la sécurité, etc. Avant de poster : FAQ Langage, toutes les FAQ PHP, cours langage et sources PHP
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 02/02/2011, 12h19   #1
Membre du Club
 
Inscription : juin 2005
Messages : 255
Détails du profil
Informations forums :
Inscription : juin 2005
Messages : 255
Points : 43
Points : 43
Par défaut Encodage caractère arabes

Bonjour,

j'ai codé une routine qui récupère via xpath et domdocument du contenu mixte (arabe et français mélangés) d'un site externe (légal hein ^^) dont les pages sont encodée en windows-1256. Je traite ensuite les données pour les convertir en utf8, et c'est là que j'ai un problème: les caractères arabes sont transformé en caractère spéciaux html sauf le texte en français:

Code :
1
2
$texte='bonjour إن تفسير ابن';
echo $texte = utf8_encode(html_entity_decode(getContentHTML($desc), ENT_QUOTES));
Je ne vois pas pourquoi la fonction html_entity_decode ne decode pas les entités html arabes ?

Racisme php ?
__________________
Je créer des sites web et je ne suis fan de voiture teintée et tout ce qui à trait au tuning: customisation, kit xenon, vitres teinté voiture et course automobile.
123quatre est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 02/02/2011, 13h37   #2
En attente de confirmation mail
 
Inscription : juin 2002
Messages : 6 164
Détails du profil
Informations forums :
Inscription : juin 2002
Messages : 6 164
Points : 6 404
Points : 6 404
Il ne faudrait peut être pas oublier de consulter la documentation : les fonctions html_entity_decode, htmlentities, htmlspecialchars, à moins de leur indiquer le charset via l'argument prévu, considèrent les données comme étant encodées en ISO-8859-1. Sinon, il ne faut pas s'étonner du résultat ...

Cependant, quel intérêt à encoder les caractères en entités HTML, surtout quand on utilise justement Unicode ? (et pour rappel, DOM comme toute extension basée sur libxml2, attend/renvoie de l'UTF-8)
julp est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 07h32.


 
 
 
 
Partenaires

Hébergement Web