Bonjour à tous,
je me tourne vers vous car je suis coincé sur un petit projet perso. Je m'explique :
j'essaie de mettre en place le scrap automatique d'un site. Je parcours pour cela différentes page classées par date, chacune d'entre elle possédant une liste de lien (les pages que je souhaite justement récupéré en local sur ma machine).
J'ai donc développé avec mootools une fonction récursive pour parcourir les pages contenant les liens. La voici :
Et voici la fonction php qui crawl la page demandé et récupère les différents liens (ceux dont je vais récupérer la page ultérieurement)
Code : Sélectionner tout - Visualiser dans une fenêtre à part 
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Code php : Sélectionner tout - Visualiser dans une fenêtre à part 
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Tout fonctionne correctement, je crawl bien la page 2013-01-13, puis 2013-01-12... je récupère bien les liens contenu à chaque fois dans la page... mais au bout de quelques minutes, mon navigateur stoppe tout. Les requêtes ne se font plus.
Quelqu'un aurait une idée ? Ou peut-être une autre manière de faire ? Je suis ouvert à toute suggestion ou discution.
Merci d'avance à tous !!

 

 
		
		 
        

 
			
			


 
   


 Ajax, scraping et ressources du navigateur ?
 Ajax, scraping et ressources du navigateur ?
				 Répondre avec citation
  Répondre avec citation

 
  
  
 
 
 
 
			 
 
Partager