Scraping, bloqué ?

**Hijacker06** · 02/09/2015, 18h23

Bonjour

Je scrape le contenu d'un site "http://theexample.net/" il y'a une semaine maintenant, tout marchais à merveille. Mais aujourd'hui voulant faire la même tache je reçois une erreur.

Je suis sure que mon script marche car quand je scrape du contenu de google ou d'un autre site çà marche.

Voilà mon script

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
<?php
include('simple_html_dom.php');
 
 
$html = @file_get_html('http://theexample.net/');  
if($html==FALSE) {
  echo 'error';
} else {
  echo 'success';
}
 
 
// Find all links
foreach($html->find('title') as $element)
echo $element->innertext. '<br>';
 
?>

Je reçois error pour "http://theexample.net/" et success pour les autres site.

Voilà l'erreur Fatal error: Call to a member function find() on a non-object in C

et si j'enlève le @ je recois une errreur en plus :Warning: file_get_contents(....: failed to open stream: No such file or directory in...

Que devrais-je faire ?

**sabotage** · 02/09/2015, 18h42

Tu as contrôlé ce que valait $html et ce qui se passait dans file_get_html() ?

**Hijacker06** · 02/09/2015, 18h53

oui quand je mets https://www.google.com/ à la place de http://theexample.net/ çà marche.

**CosmoKnacki** · 02/09/2015, 19h37

Il est possible que suite à tes essais successifs le développeur du site:

ait banni l'IP ou le domaine de ton serveur, via une directive dans un .htaccess par exemple (vu que tu pratiques du scraping sauvage sans avoir l'autorisation du propriétaire du site.)
contrôle désormais le User Agent (qui dans ton cas ne correspond pas à un quelconque navigateur), ce qui peut se faire dans le code PHP même via la variable $_SERVER['HTTP_USER_AGENT'].
interdit l'accès aux pages de son site via fopen, file_get_contents, DOMDocument::loadHTMLFile et fort probablement file_get_html ^(*) en réglant l'option allow_url_fopen à 0 dans son php.ini (ou un truc équivalent s'il utilise un autre langage).

Tu peux passer outre un filtre d'IP ou de domaine en passant par un serveur proxy (ou un service quelconque proposant une ip dynamique).

Pour ce qui est du contrôle du User Agent, il peut être modifier facilement soit en définissant un contexte de flux pour les fonctions fopen, file et file_get_contents, soit en utilisant cURL pour récupérer la page (ça demande un peu d'investissement mais c'est bien plus performant). cURL permet également de passer outre allow_url_fopen.

(*) Au passage, je ne saurais trop te déconseiller d'utiliser simple_html_dom qui n'est pas réputé pour sa vitesse (et qui selon moi n'est pas si simple que ça) en matière de parsing html. Autant sauter le pas pour se plonger dans DOMDocument et DOMXPath (qui, une fois appris sont utilisables dans n'importe quel langage à peu de frais).

**sabotage** · 02/09/2015, 19h45

oui quand je mets https://www.google.com/ à la place de http://theexample.net/ çà marche.

ça ne répond à aucune de mes questions.
Le but c'est de disséquer ce qui se passe quand ça échoue.

**Hijacker06** · 02/09/2015, 19h57

Envoyé par CosmoKnacki

Il est possible que suite à tes essais successifs le développeur du site:

ait banni l'IP ou le domaine de ton serveur, via une directive dans un .htaccess par exemple (vu que tu pratiques du scraping sauvage sans avoir l'autorisation du propriétaire du site.)
contrôle désormais le User Agent (qui dans ton cas ne correspond pas à un quelconque navigateur), ce qui peut se faire dans le code PHP même via la variable $_SERVER['HTTP_USER_AGENT'].
interdit l'accès aux pages de son site via fopen, file_get_contents, DOMDocument::loadHTMLFile et fort probablement file_get_html ^(*) en réglant l'option allow_url_fopen à 0 dans son php.ini (ou un truc équivalent s'il utilise un autre langage).

Tu peux passer outre un filtre d'IP ou de domaine en passant par un serveur proxy (ou un service quelconque proposant une ip dynamique).

Pour ce qui est du contrôle du User Agent, il peut être modifier facilement soit en définissant un contexte de flux pour les fonctions fopen, file et file_get_contents, soit en utilisant cURL pour récupérer la page (ça demande un peu d'investissement mais c'est bien plus performant). cURL permet également de passer outre allow_url_fopen.

(*) Au passage, je ne saurais trop te déconseiller d'utiliser simple_html_dom qui n'est pas réputé pour sa vitesse (et qui selon moi n'est pas si simple que ça) en matière de parsing html. Autant sauter le pas pour se plonger dans DOMDocument et DOMXPath (qui, une fois appris sont utilisables dans n'importe quel langage à peu de frais).

Je suis sure que mon ip n'a pas été blacklisté: je développe le site en local, j'ai une ip dynamique, j'ai redemarré ma box mon ip a changé, j'ai meme installé hotspot shield mais toujours le même problème.

**Hijacker06** · 02/09/2015, 20h05

Donc si je passe par domdocument et xpath je pourrais régler le problème ?

**CosmoKnacki** · 02/09/2015, 20h10

Non, ça c'est juste un conseil pour le parsing du document. Dans un premier temps essai déjà de récupérer la page. (google: tutoriel php cURL me semble un bon point de départ.)

Question bonus: As-tu vérifié que la page est toujours accessible via ton navigateur?

**Hijacker06** · 02/09/2015, 20h20

Envoyé par CosmoKnacki

Non, ça c'est juste un conseil pour le parsing du document. Dans un premier temps essai déjà de récupérer la page. (google: tutoriel php cURL me semble un bon point de départ.)

Question bonus: As-tu vérifié que la page est toujours accessible via ton navigateur?

Oui j'ai verifié la page s'ouvre toujours dans mon navigateur.

Donc je vais essayer de faire comme vous me dites m'investir dans Curl, Domdocument et xpath mais lequel choisir ?

**Hijacker06** · 02/09/2015, 20h37

Je viens d'essayer avec cURL le même problème çà marche avec les autres sites mais pas avec mon site :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
<?php
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, 'http://theexample.net/');
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_COOKIESESSION, true); 
$return = curl_exec($curl);
echo $return;
?>

**CosmoKnacki** · 02/09/2015, 21h38

Il n'y a pas à "choisir". cURL permet le transfert de données vers ou à partir d'une URL, il n'intervient pas dans l'analyse du contenu reçu. DOMDocument n'intervient que dans un deuxième temps, pour l'analyse du html.

DOMDocument est une classe dont les instances sont une représentation sous forme d'arbre d'un document HTML (ou XML). DOMDocument dispose de méthodes permettant "d'interroger" cette représentation arborescente pour trouver ce que l'on souhaite. Ces méthodes sont néanmoins basiques et parfois il est utile d'utiliser DOMXPath en complément de DOMDocument pour des demandes plus complexes, mais ça n'est pas forcément nécessaire.

Comme je te l'ai dis dans un message précédant, commence d'abord par obtenir la page avec cURL. (J'entends par là créer un nouveau fichier php propre, genre testcurl.php et afficher le résultat de la session cURL avec un var_dump, et pas essayer de la coller dans un code de 200 lignes potentiellement bugué. Le but c'est d'avoir les idées claires sur ce qui se passe vraiment et de voir rapidement quand ça fonctionne ou pas, sans code parasite.)

Pour bien comprendre les options de cURL, tu dois te renseigner sur ce qui est envoyé par le client (un navigateur) quand il demande une page (n'hésite pas à faire des recherches). Le but du jeu est de se faire passer pour un navigateur qui demande une page. Il existe des extensions pour Firefox qui permettent de récupérer ces échanges, par exemple header-spy. Comme ça en chargeant simplement la page dans ton navigateur et en comparant avec d'autres pages, par exemple celle qui "marchent", tu pourras te faire une idée de ce qui s'échange.

cURL a plein d'options, notamment CURLOPT_USERAGENT qui permet au serveur d'identifier le User Agent. Tu trouveras ici une base de données qui te permettras de renseigner ce paramètre. Si ton url est en https, ajoute l'option CURLOPT_SSL_VERIFYPEER à false.

Scraping, bloqué ?

Langage PHP

Discussions similaires

Partager

Partager