Parser une page HTML : Regex ou DOMDocument()

**MoiStéphane** · 18/04/2021, 18h49

Bonjour

J'essaie de parser une page html qui est construite comme ceci

Code html :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
...
<section class="ui grid topbar">
<div class="ui row">
 
        ... des divs etc
 
    </div>
</section>
...

Pour cela j'essaie avec la regex qui selon moi veut dire de sélectionner n'importe quel caractère en n importe quelle quantité entre les deux balises section:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
$strResult = implode("", file("test_1.php"));
$pattern = '#<section(.*)<\/section>#';
preg_match_all($pattern, $strResult, $n);
echo '<pre>';
var_dump($n);

le resultat est vide :

array(2) {
[0]=>
array(0) {
}
[1]=>
array(0) {
}
}

J'essaie alors avec DOMDocument() avec ce code qui selon moi devrait extraire des blocs de code délimités par le tag 'section'

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
$doc = new DOMDocument();
$doc->loadHTMLFile("test_1.php");
$elements = $doc->getElementsByTagName('section');
echo '<pre>';
var_dump($elements);

mais là aussi le résultat est vide :

bject(DOMNodeList)#2 (1) {
["length"]=>
int(0)
}

Question : Comment dois-je donc procéder pour parser une page HTML et en extraire le code entre les balises section ? L un est elle préférable à l 'autre et quelle sont donc mes erreurs pour obtenir un résultat vide ?
Merci pour votre aide.

**mathieu** · 18/04/2021, 19h08

pour l'expression régulière, il faut rajouter l'option "s" pour indiquer que le point inclut les sauts à la ligne :
https://www.php.net/manual/fr/refere....modifiers.php

**MoiStéphane** · 18/04/2021, 19h50

Merci pour cette réponse mais je teste et rien pourtant d apres les propriétés, tout est correct, selon ma logique

. matches any character (except for line terminators)
* matches the previous token between zero and unlimited times, as many times as possible, giving back as needed (greedy)
\s matches any whitespace character (equivalent to [\r\n\t\f\v ])

J ai mis en ligne ici https://regex101.com/r/f5l0cB/1

**mathieu** · 18/04/2021, 19h56

le "s" doit être mis à la fin de la regex
https://regex101.com/r/nn8pbs/1

**MoiStéphane** · 18/04/2021, 20h38

Merci mais visiblement j ai pas saisi un truc

Code html :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
<section class="ui grid topbar">
une ligne
 
</section>
<section class="ui grid topbar">
<div class="ui row">
 
        ... des divs etc
 
    </div>
</section>

là j ai fait en sorte d avoir 2 resultats mais la regex <section(.*)<\/section>\s ne retourne rien
alors que si j ai ce code

Code html :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
<section class="ui grid topbar">une ligne</section>
<section class="ui grid topbar">
<div class="ui row">
 
        ... des divs etc
 
    </div>
</section>

elle retourne la première et seulement la première ligne

**CosmoKnacki** · 18/04/2021, 22h31

Le problème vient du fait que ton fichier n'est pas chargé correctement. La première chose à faire est d'essayer de charger ton fichier avec file_get_contents() et de voir si tu obtiens quelque chose! (à toi si ça ne fonctionne pas de trouver l'origine du problème: mauvaise url?, manque un contexte de flux?). Ça ne sert à rien d'aller plus avant si tu restes coincé à cette étape.

D'autre part, je trouve malheureux que tu n'envisages DOMDocument qu'en deuxième solution pour parser un fichier html, alors que c'est l'outil approprié, les regex sont à éviter pour ce genre de tâches.

**MoiStéphane** · 18/04/2021, 23h45

Merci, effectivement, je ne sais pas pourquoi mais c est bien la lecture du fichier enregistré qui posait problème.

je trouve malheureux que tu n'envisages DOMDocument qu'en deuxième solution pour parser un fichier html

Quand j ai cherché comment parser une page html, j ai découvert cette solution. Je l ai testé mais résultat vide (à cause du fichier mais je ne le savais pas). Mais c est bel et bien ce qe j utilise maintenant que tu m as donné la solution à mon pb car c est tellement plus simple et j imagine même que côté performance, ce doit être bien mieux.
merci encore !

**CosmoKnacki** · 19/04/2021, 10h21

j imagine même que côté performance, ce doit être bien mieux.

Pas forcément parce que l'utilisation de DOMDocument::loadHTMLFile() nécessite de parser intégralement le fichier et de créer tout un arbre composé de nombreux objets afin qu'il soit ensuite interrogeable et manipulable. Néanmoins, plus tu auras de tâches à effectuer dessus plus ce coût de départ sera amorti. Mais le principale avantage de DOMDocument est de sa capacité à parser correctement le code HTML, ce qui est très complexe à faire avec une approche directe à base de regex ou de fonctions de manipulation de chaîne. Le HTML est un langage dont la syntaxe est bien plus complexe et piégeuse qu'il n'y parait. DOMDocument a de plus une certaine tolérance au code HTML malformé et ouvre à une énorme palette d'outils.

Parser une page HTML : Regex ou DOMDocument() [PHP 7]

Langage PHP

Discussions similaires

Partager

Partager