Bonjour.
Je développe un crawler qui scrape des information sur une page dans une market place.
En local j'e l’exécute depuis un Docker, ça fonctionne..
Sur le serveur la requête est redirigé sur la page d’accueil du site qui est scrapé..
J'ai essayé plusieurs user agent.
J'ai aussi tenté d'activé le moteur de cookie..
Testé différentes syntaxes proposés sur des forum..
Quelqu'un a déjas rencontré ce problème?
Sortie :Code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 $ua = 'Mozilla/5.0 (Windows; U; Win 9x 4.90; SG; rv:1.9.2.4) Gecko/20101104 Netscape/9.1.0285'; $ch = curl_init(); curl_setopt($ch, CURLOPT_USERAGENT, $ua); curl_setopt($ch, CURLOPT_URL, strtoupper($__string_url) ); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true ); // le scraper suit les redirections curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false); curl_setopt($ch, CURLOPT_TIMEOUT, 30); curl_setopt($ch , CURLOPT_COOKIEFILE, './cookie.txt'); curl_setopt($ch , CURLOPT_COOKIEJAR, './cookie.txt'); $__string_html_content = curl_exec($ch); curl_close ( $ch );
Merci de votre attentionCode:
1
2
3
4
5
6
7
8 <html> <head> <title>Object moved</title> <script type="text/javascript">var a=window;a.dT_?a.console&&a.console.log("Duplicate agent injection detected, turning off redundant initConfig."): navigator.userAgent&&0<=navigator.userAgent.indexOf("RuxitSynthetic")||window.dT_(window.dT_= ... ( la suite c'est le DOM de la page daccueil du site en question...)