Aspirer une page complète

**sami_c** · 16/01/2006, 17h00

Bonjour,
Je voudrais créer un script php qui permet d'aspirer une PAGE (et non pas un site) avec toutes ses images.
Merci

**Mr N.** · 16/01/2006, 17h23

commence déjà par par récupérer une page sans images
file, fopen, file_get_contents, sockets, curl, ...

**sami_c** · 16/01/2006, 18h02

c'est fait, avec fopen et fgets
ensuite c'est la récup des fichiers qui me préoccupe, je pense qu'il faudrait utilise les expressions régulière...que est pour moi un casse tête

**Mr N.** · 16/01/2006, 18h08

preg_match_all, après etre faire un tour là dessus =>
http://www.expreg.com

Il te reste plus qu'à capturer les images (relatives !) qui sont dans img src="XXX", + d'autres comme dans les feuilles de styles

**Kioob** · 17/01/2006, 09h20

et pourquoi donc "aspirer" une page ?

Je rappel en passant que le vol de contenu, c'est mal (tm).

S'il s'agit d'un truc réellement fait pour (news par exemple), vaut mieux demander un flux XML : ça évitera de foutre à terre le serveur visé...

**sami_c** · 17/01/2006, 11h42

ce n'est pas pour le vol, en fait là je suis dans un pays qui censure des sites, alors je crée un aspirateur que je vais heberger sur un hebergeur non censuré et qui me permettra de récupérer les pages censurée...c'est donc pour une bonne cause

**Kioob** · 17/01/2006, 12h30

Dans ce cas c'est un proxy que tu dois mettre en place...

**sami_c** · 17/01/2006, 16h49

les proxy seront détecté et censuré eux aussi ...

**marcha** · 17/01/2006, 18h59

Test avec ça si tu peux récupérer les urls des images

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
	function getUrls($string, $strict=true) {
		$types = array("href", "src", "url");
		while(list(,$type) = each($types)) {
			$innerT = $strict?'[a-z0-9:?=&@/._-]+?':'.+?';
			preg_match_all ("|$type\=([\"'`])(".$innerT.")\\1|i", $string, &$matches);
			$ret[$type] = $matches[2];
		}	
		return $ret;
	}

Aspirer une page complète

Langage PHP

Discussions similaires

Partager

Partager