Bonjour ,
Voila je tente de récupérer des informations précise entre deux balise sur une page web avec l'aide de curl , je suis capable de récupérer l'information par contre dans ma réponse elle garde les balise HTML que j'aimerais éliminer pour avoir le texte en clair sans aucun code html.... ( d'avoir la reponse sans qui soit en Italique <em> )
Voici mes codes :
test.html
test.php
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12 <!DOCTYPE html> <html> <head> <title>Page Title</title> </head> <body> <h1>This is a Heading</h1> <p><em>This is a paragraph.</em></p> </body> </html>
Merci!
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21 <?php $curl = curl_init('127.0.0.1/test.html'); curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE); $page = curl_exec($curl); if(curl_errno($curl)) { echo 'Scraper error: ' . curl_error($curl); exit; } curl_close($curl); $regex = '/<em>(.*?)<\/em>/s'; if ( preg_match($regex, $page, $list) ) echo $list[0]; else print "Not found"; ?>







Répondre avec citation
Partager