Parser une page HTML : Regex ou DOMDocument()

Version imprimable

18/04/2021, 19h49
MoiStéphane

Parser une page HTML : Regex ou DOMDocument()
Bonjour

J'essaie de parser une page html qui est construite comme ceci
Code:

1 2 3 4 5 6 7 8 9 ... <section class="ui grid topbar"> <div class="ui row"> ... des divs etc </div> </section> ...
Pour cela j'essaie avec la regex qui selon moi veut dire de sélectionner n'importe quel caractère en n importe quelle quantité entre les deux balises section:
Code:

1 2 3 4 5 $strResult = implode("", file("test_1.php")); $pattern = '#<section(.*)<\/section>#'; preg_match_all($pattern, $strResult, $n); echo '<pre>'; var_dump($n);
le resultat est vide :

Citation:

array(2) {
[0]=>
array(0) {
}
[1]=>
array(0) {
}
}

J'essaie alors avec DOMDocument() avec ce code qui selon moi devrait extraire des blocs de code délimités par le tag 'section'
Code:

1 2 3 4 5 $doc = new DOMDocument(); $doc->loadHTMLFile("test_1.php"); $elements = $doc->getElementsByTagName('section'); echo '<pre>'; var_dump($elements);
mais là aussi le résultat est vide :

Citation:

bject(DOMNodeList)#2 (1) {
["length"]=>
int(0)
}

Question : Comment dois-je donc procéder pour parser une page HTML et en extraire le code entre les balises section ? L un est elle préférable à l 'autre et quelle sont donc mes erreurs pour obtenir un résultat vide ?
Merci pour votre aide.
18/04/2021, 20h08
mathieu

pour l'expression régulière, il faut rajouter l'option "s" pour indiquer que le point inclut les sauts à la ligne :
https://www.php.net/manual/fr/refere....modifiers.php
18/04/2021, 20h50
MoiStéphane

Merci pour cette réponse mais je teste et rien pourtant d apres les propriétés, tout est correct, selon ma logique

Citation:

. matches any character (except for line terminators)
* matches the previous token between zero and unlimited times, as many times as possible, giving back as needed (greedy)
\s matches any whitespace character (equivalent to [\r\n\t\f\v ])

J ai mis en ligne ici https://regex101.com/r/f5l0cB/1
18/04/2021, 20h56
mathieu

le "s" doit être mis à la fin de la regex
https://regex101.com/r/nn8pbs/1

Merci mais visiblement j ai pas saisi un truc
Code:

1 2 3 4 5 6 7 8 9 10 11 <section class="ui grid topbar"> une ligne </section> <section class="ui grid topbar"> <div class="ui row"> ... des divs etc </div> </section>
là j ai fait en sorte d avoir 2 resultats mais la regex <section(.*)<\/section>\s ne retourne rien
alors que si j ai ce code
Code:

1 2 3 4 5 6 7 8 <section class="ui grid topbar">une ligne</section> <section class="ui grid topbar"> <div class="ui row"> ... des divs etc </div> </section>
elle retourne la première et seulement la première ligne

18/04/2021, 23h31
CosmoKnacki

Le problème vient du fait que ton fichier n'est pas chargé correctement. La première chose à faire est d'essayer de charger ton fichier avec file_get_contents() et de voir si tu obtiens quelque chose! (à toi si ça ne fonctionne pas de trouver l'origine du problème: mauvaise url?, manque un contexte de flux?). Ça ne sert à rien d'aller plus avant si tu restes coincé à cette étape.

D'autre part, je trouve malheureux que tu n'envisages DOMDocument qu'en deuxième solution pour parser un fichier html, alors que c'est l'outil approprié, les regex sont à éviter pour ce genre de tâches.
19/04/2021, 00h45
MoiStéphane

Merci, effectivement, je ne sais pas pourquoi mais c est bien la lecture du fichier enregistré qui posait problème.

Citation:

je trouve malheureux que tu n'envisages DOMDocument qu'en deuxième solution pour parser un fichier html

Quand j ai cherché comment parser une page html, j ai découvert cette solution. Je l ai testé mais résultat vide (à cause du fichier mais je ne le savais pas). Mais c est bel et bien ce qe j utilise maintenant que tu m as donné la solution à mon pb car c est tellement plus simple et j imagine même que côté performance, ce doit être bien mieux.
merci encore !
19/04/2021, 11h21
CosmoKnacki

Citation:

j imagine même que côté performance, ce doit être bien mieux.

Pas forcément parce que l'utilisation de DOMDocument::loadHTMLFile() nécessite de parser intégralement le fichier et de créer tout un arbre composé de nombreux objets afin qu'il soit ensuite interrogeable et manipulable. Néanmoins, plus tu auras de tâches à effectuer dessus plus ce coût de départ sera amorti. Mais le principale avantage de DOMDocument est de sa capacité à parser correctement le code HTML, ce qui est très complexe à faire avec une approche directe à base de regex ou de fonctions de manipulation de chaîne. Le HTML est un langage dont la syntaxe est bien plus complexe et piégeuse qu'il n'y parait. DOMDocument a de plus une certaine tolérance au code HTML malformé et ouvre à une énorme palette d'outils.