compatibilité loadhtml et utf-8

Version imprimable

08/03/2016, 14h14
saluts92

compatibilité loadhtml et utf-8
Bonjour,

J'ai besoin d'utiliser un objet DomXpath pour analyser des pages HTML
Pour cela j'utilise les lignes de codes suivants :
Code:

1 2 3 4 $dom = new DomDocument; @$dom -> loadHTML($url_content); $xpath = new DomXPath($dom);
$url_content est le contenu d'une page web récupéré via CURL

Cela fonctionne bien mis à part sur quelques sites (pas tous) en UTF-8 où le loadhtml retourne un fichier vide (sans erreur particulière)
Le problème est comme je l'ai deja dit plus haut ce n'est pas systématique : pour la plupart des sites en UTF-8 cela fonctionne

Quelque'un a t-il un retour d'expérience similaire ? et/ou une solution pour l'aider ?

d'avance merci
08/03/2016, 14h46
CosmoKnacki

Les noms de ces classes sont DOMDocument et DOMXPath (avec DOM en majuscule).

Si tu veux voir les éventuels messages d'erreurs enlève l'arobase devant $dom->loadHTML($url_content);, peut être qu'ils contiennent des informations susceptibles de t'aider.

Concernant ton contenu vide, as-tu vérifier que $url_content ne l'était pas auparavant? Je ne pense pas que l'UTF8 soit en cause.

NB: il n'est pas forcément utile d'utiliser cURL pour obtenir le contenu de la page web, la méthode DOMDocument::loadHTMLFile peut s'en charger, et les paramètres que l'on peut passer à cURL, peuvent être passés à cette méthode via stream_context_create et stream_context_set_option.
08/03/2016, 14h53
saluts92
$url_content contient bien le fichier

si l'utf-8 est en cause j'ai pu le vérifier en utilisant la "bidouille suivante" :
Code:

1 2 $dom->loadHTML('<?xml encoding="UTF-8">' . $url_content);
mais ce n'est pas une solution pérenne
08/03/2016, 14h56
CosmoKnacki

Et as-tu essayer de passer l'encodage directement dans le constructeur?:

Code:

$dom = new DOMDocument('1.0', 'UTF-8');
08/03/2016, 15h00
saluts92

je vais essayer, mais que se passera t-il pour les pages html qui ne sont pas en utf-8 ?
08/03/2016, 15h04
CosmoKnacki

Non en fait ça ne change rien, l'encodage est systématiquement redéfini au chargement de la page. Mais je pense toujours que l'encodage n'y est pour rien. Peux-tu donner l'url d'une des pages problématiques.
08/03/2016, 15h31
saluts92

avec ta préco

Code:

$dom = new DOMDocument('1.0', 'UTF-8');

ca ne fonctionne pas

je rappelle qu'avec

Code:

$dom->loadHTML('<?xml encoding="UTF-8">' . $url_content);

cela fonctionne bien

je ne peux malheureusement pas donner de lien pour des raisons de discrétion
08/03/2016, 15h49
CosmoKnacki

Difficile de t'aider sans voir le fichier en cause.

voici les premières lignes de ma page html

Code:

1
2
3
4
5
6
7
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
<head>
	<title>XXXXXXX</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="language" content="fr" />
<meta http-equiv="Content-Language" content="fr" />

en espérant que ce sera suffisant

Ton $url_content vient directement de curl ou tu le stockes en bdd avant ?

Sinon peut être ca qui pourrait t'aider
Code:

1 2 3 4 5 // http://php.net/manual/fr/function.mb-convert-encoding.php public function encodeToUtf8($string) { return mb_convert_encoding($string, "UTF-8", mb_detect_encoding($string, "UTF-8, ISO-8859-1, ISO-8859-15", true)); }
Au pire, possibilité d'avoir l'url problématique en MP ?

19/06/2016, 10h37
saluts92

mon url_content vient directement du CURL
22/06/2016, 17h42
saluts92

ce qui est bizarre, c'est que pour d'autres pages en UTF-8 cela fonctionne