parsing avec le DOMDocument php

j'écrit un script pour parser les pages web afin d'afficher tous les liens existants :
j'ai utilisé la classe DOMDocument
voilà mon script:

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
<?php 
 
// It may take a whils to spider a website ... 
   set_time_limit(10000); 
 
// Inculde the phpcrawl-mainclass 
include_once('../PHPCrawl_083/PHPCrawl_083/libs/PHPCrawler.class.php'); 
 //include ('2.php');  
// Extend the class and override the handleDocumentInfo()-method 
 
class MyCrawler extends PHPCrawler 
 
{   
function handleDocumentInfo(PHPCrawlerDocumentInfo $DocInfo) {
 
    if (PHP_SAPI == "cli") $lb = "\n"; 
    else {
	$lb = "<br />"; 
 
     $home_url = parse_url($DocInfo->url ,PHP_URL_HOST ); 
 
    $dom = new DOMDocument();
  $dom->loadHTML($DocInfo->url);
$links = $dom->getElementsByTagName('a');
foreach($links as $link) {
 
 echo  $link->getAttribute('href').''.$link->nodeValue. PHP_EOL;
 
}   
   }
 }
}
$crawler = new MyCrawler(); 
$crawler->setURL("http://smart-techno.org"); 
 
$crawler->addURLFilterRule("#\.(jpg|gif|png|pdf|jpeg|css|js)$#i"); 
$crawler->setWorkingDirectory("C:/Users/mayss/Documents/travailcrawl/"); 
$crawler->go(); 
//httpwww.annuaire-ag.com
//
 
?>

mais ça n'affiche rien , je ne sais pa d'ou vient l'erreur :roll: !!!

Tu n'utilises pas la bonne fonction : DOMDocument::loadHTML lit du HTML directement à partir de la source. Or, ce que tu lui fournis c'est l'url d'accès au fichier. Il faut donc utiliser DOMDocument::loadHTMLFile().

l'erreur en ligne 27
voilà la solution

Code:

echo $link->getAttribute('href'), PHP_EOL ;