Expression rationnelle pour détecter du HTML

**chatofor** · 23/02/2018, 12h30

Bonjour,

Je veux faire un script qui récupère le contenu de balises HTML paragraphes. Récupérer ce qu'il y a dans 

Voici mon sript tout simple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
$file_contents = "<p>Involontairement au d&eacute;part, plus ou moins volontairement maintenant</p><p>Je l'ai pris involontairement (je dirais m&ecirc;me que c'est les anciens &quot;amis&quot; qui m'y on emmen&eacute;).<br />
Mais finalement la solitude me pla&icirc;t. J'ai l'impression que c'est fait pour moi.</p>";
preg_match_all("#<p>(.*)</p>#", $file_contents, $out);
echo 'affichage';

Problème, tout n'est pas inclu. La première phrase oui, la deuxième pas du tout.

Avez-vous une idée de pourquoi ?

Merci d'avance

edit : dans mon code les caractères spéciaux sont encodés en HTML genre é = & eacute ;

**zancrows** · 23/02/2018, 13h10

Bonjour, déjà tu devrais échapper le slash dans ton regex

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

<p>(.*)<\/p>

en suite la 2ème phrase ne match pas parce qu'il le caractère 'entrer' ( \r\n ) après le

tu peux faire des test avec ce site https://regex101.com/r/MW8YOQ/3/

**CosmoKnacki** · 23/02/2018, 13h35

Envoyé par zancrows

Bonjour, déjà tu devrais échapper le slash dans ton regex

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

<p>(.*)<\/p>

Absolument pas, le slash n'est pas un caractère spécial. Il ne dois être échappé que lorsque le slash est utilisé comme délimiteur de pattern.

la 2ème phrase ne match pas parce qu'il le caractère 'entrer' ( \r\n )

'entrée' est plus une touche du clavier qu'un caractère, ensuite suivant le système utilisé, cette touche peux produire dans un éditeur l'une des séquences de caractères suivantes: \n ou \r\n ou \r. Mais effectivement le . ne matche pas le \n par défaut, pour qu'il le fasse, il faut utiliser le modificateur s.

Mais ce n'est pas le seul problème de cette pattern.

**zancrows** · 23/02/2018, 13h55

Envoyé par CosmoKnacki

Absolument pas, le slash n'est pas un caractère spécial. Il ne dois être échappé que lorsque le slash est utilisé comme délimiteur de pattern.

autant pour moi

**chatofor** · 23/02/2018, 14h17

Ca paraît effectivement plus simple. Le code une fois adapté à mes besoins donne ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
<?php
$ch = curl_init();
$timeout = 0; // set to zero for no timeout
curl_setopt ($ch, CURLOPT_URL, 'http://m.jeuxvideo.com/forums/42-51-55256100-1-0-1-0-le-chemin-de-la-solitude.htm');
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file_contents = curl_exec($ch);
curl_close($ch);
 
 
$dom = new DOMDocument;
$dom->loadHTML($file_contents);
 
$result = [];
 
foreach ($dom->getElementsByTagName('p') as $pNode) {
    $content = '';
    foreach ($pNode->childNodes as $childNode) {
        $content .= $dom->saveHTML($childNode);
    }
    $result[] = $content;
}
?>
<pre><?php var_dump($result); ?></pre>

Seulement la ligne 12 renvoie une erreur :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
Warning: DOMDocument::loadHTML(): Tag header invalid in Entity, line: 19 in /opt/lampp/htdocs/tests/yams/alsa3.php on line 12
 
Warning: DOMDocument::loadHTML(): Tag section invalid in Entity, line: 25 in /opt/lampp/htdocs/tests/yams/alsa3.php on line 12
 
Warning: DOMDocument::loadHTML(): Tag footer invalid in Entity, line: 421 in /opt/lampp/htdocs/tests/yams/alsa3.php on line 12

J'ai cherché du côté de google et j'ai trouvé qu'il fallait entrer ce code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

 libxml_use_internal_errors(true);

Je n'ai pas cherché donc compris pourquoi mais je te remercie pour ton aide

Je n'ai pas vraiment compris l'histoire du deuxième foreach avec le childNodes mais je vais y réfléchir

**CosmoKnacki** · 23/02/2018, 15h05

Par défaut, lorsque libxml (la librairie qui se cache derrière les classes de manipulation du DOM en PHP) détecte une erreur dans le code html, un warning est affiché, ce qui est plutôt gênant.
Ce que fait libxml_use_internal_errors(true), c'est de rediriger ces erreurs vers le gestionnaire d'erreurs de libxml. Ainsi, les erreurs ne sont plus affichées mais tu peux par contre les consulter via libxml_get_errors() qui renvoie un tableau de ces erreurs.
Autre chose à savoir sur le fonctionnement de libxml_use_internal_errors(), cette fonction renvoie son réglage précédent, ce qui fait qu'on écrit couramment:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
$dom = new DOMDocument;
$state = libxml_use_internal_errors(true); // on stocke l'état précédent
$dom->loadHTML($html); // c'est ici que la chaîne est parsée et que les erreurs sont détectés.
libxml_use_internal_errors($state); // on restitue l'état précédent, ainsi on impacte pas les scripts éventuels qui peuvent suivre

**CosmoKnacki** · 23/02/2018, 15h37

Envoyé par chatofor

Je n'ai pas vraiment compris l'histoire du deuxième foreach avec le childNodes mais je vais y réfléchir

Pourquoi ce deuxième foreach?
La méthode DOMDocument::saveHTML() renvoie la chaîne du nœud passé en argument mais avec les tags du nœud en question. Donc si $pNode correspond à toto, tu obtiendras toto et non toto.

D'autre part, si chacun de tes paragraphes ne contenaient qu'un seul nœud texte, on pourrait très bien s'en passer et obtenir leur contenu en faisant:$content = $pNode->nodeValue; qui renvoie tout les éléments texte d'un nœud (y compris celui de ces nœuds enfant). Mais ce n'est pas le cas ici.
Si on prend le contenu du deuxième paragraphe:

Je l'ai pris involontairement (je dirais même que c'est les anciens "amis" qui m'y on emmené). 
Mais finalement la solitude me plaît. J'ai l'impression que c'est fait pour moi.

On a:

un nœud texte:

Je l'ai pris involontairement (je dirais m
une entité

ê
un nœud texte:

me que c'est les anciens "amis" qui m'y on emmen
une entité

é
un nœud texte:

).
un élément
un nœud texte:

Mais finalement la solitude me pla
etc.

Ces éléments sont de nature différente, donc la seule manière de récupérer le contenu d'une balise consiste à boucler sur ses nœuds enfant et à concaténer leur contenu. La propriété DOMNode::childNodes renvoie une instance de DOMNodeList qui contient les enfants directs d'un élément.

**CosmoKnacki** · 23/02/2018, 13h16

Pour parser du html on utilise DOMDocument, pas les regex:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
$dom = new DOMDocument;
$dom->loadHTMLFile($yourfile);
 
$result = [];
 
foreach ($dom->getElementsByTagName('p') as $pNode) {
    $content = '';
    // on concatène les nœuds enfants du paragraphe
    foreach ($pNode->childNodes as $childNode) {
        $content .= $dom->saveHTML($childNode);
    }
    $result[] = $content;
}

démo

Expression rationnelle pour détecter du HTML

Langage PHP

Vue hybride

Discussions similaires

Partager

Partager