Parser une page HTML : Regex ou DOMDocument()

**MoiStéphane** · 18/04/2021, 18h49

Bonjour

J'essaie de parser une page html qui est construite comme ceci

Code html :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
...
<section class="ui grid topbar">
<div class="ui row">
 
        ... des divs etc
 
    </div>
</section>
...

Pour cela j'essaie avec la regex qui selon moi veut dire de sélectionner n'importe quel caractère en n importe quelle quantité entre les deux balises section:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
$strResult = implode("", file("test_1.php"));
$pattern = '#<section(.*)<\/section>#';
preg_match_all($pattern, $strResult, $n);
echo '<pre>';
var_dump($n);

le resultat est vide :

array(2) {
[0]=>
array(0) {
}
[1]=>
array(0) {
}
}

J'essaie alors avec DOMDocument() avec ce code qui selon moi devrait extraire des blocs de code délimités par le tag 'section'

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
$doc = new DOMDocument();
$doc->loadHTMLFile("test_1.php");
$elements = $doc->getElementsByTagName('section');
echo '<pre>';
var_dump($elements);

mais là aussi le résultat est vide :

bject(DOMNodeList)#2 (1) {
["length"]=>
int(0)
}

Question : Comment dois-je donc procéder pour parser une page HTML et en extraire le code entre les balises section ? L un est elle préférable à l 'autre et quelle sont donc mes erreurs pour obtenir un résultat vide ?
Merci pour votre aide.

**mathieu** · 18/04/2021, 19h08

pour l'expression régulière, il faut rajouter l'option "s" pour indiquer que le point inclut les sauts à la ligne :
https://www.php.net/manual/fr/refere....modifiers.php

**MoiStéphane** · 18/04/2021, 19h50

Merci pour cette réponse mais je teste et rien pourtant d apres les propriétés, tout est correct, selon ma logique

. matches any character (except for line terminators)
* matches the previous token between zero and unlimited times, as many times as possible, giving back as needed (greedy)
\s matches any whitespace character (equivalent to [\r\n\t\f\v ])

J ai mis en ligne ici https://regex101.com/r/f5l0cB/1

**mathieu** · 18/04/2021, 19h56

le "s" doit être mis à la fin de la regex
https://regex101.com/r/nn8pbs/1

**MoiStéphane** · 18/04/2021, 20h38

Merci mais visiblement j ai pas saisi un truc

Code html :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
<section class="ui grid topbar">
une ligne
 
</section>
<section class="ui grid topbar">
<div class="ui row">
 
        ... des divs etc
 
    </div>
</section>

là j ai fait en sorte d avoir 2 resultats mais la regex <section(.*)<\/section>\s ne retourne rien
alors que si j ai ce code

Code html :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
<section class="ui grid topbar">une ligne</section>
<section class="ui grid topbar">
<div class="ui row">
 
        ... des divs etc
 
    </div>
</section>

elle retourne la première et seulement la première ligne

**CosmoKnacki** · 18/04/2021, 22h31

Le problème vient du fait que ton fichier n'est pas chargé correctement. La première chose à faire est d'essayer de charger ton fichier avec file_get_contents() et de voir si tu obtiens quelque chose! (à toi si ça ne fonctionne pas de trouver l'origine du problème: mauvaise url?, manque un contexte de flux?). Ça ne sert à rien d'aller plus avant si tu restes coincé à cette étape.

D'autre part, je trouve malheureux que tu n'envisages DOMDocument qu'en deuxième solution pour parser un fichier html, alors que c'est l'outil approprié, les regex sont à éviter pour ce genre de tâches.

Parser une page HTML : Regex ou DOMDocument() [PHP 7]

Langage PHP

Vue hybride

Discussions similaires

Partager

Partager