Bonjour,
Je voudrais créer un script php qui permet d'aspirer une PAGE (et non pas un site) avec toutes ses images.
Merci
Bonjour,
Je voudrais créer un script php qui permet d'aspirer une PAGE (et non pas un site) avec toutes ses images.
Merci
commence déjà par par récupérer une page sans images
file, fopen, file_get_contents, sockets, curl, ...
c'est fait, avec fopen et fgets
ensuite c'est la récup des fichiers qui me préoccupe, je pense qu'il faudrait utilise les expressions régulière...que est pour moi un casse tête![]()
preg_match_all, après etre faire un tour là dessus =>
http://www.expreg.com
Il te reste plus qu'à capturer les images (relatives !) qui sont dans img src="XXX", + d'autres comme dans les feuilles de styles
et pourquoi donc "aspirer" une page ?![]()
Je rappel en passant que le vol de contenu, c'est mal (tm).
S'il s'agit d'un truc réellement fait pour (news par exemple), vaut mieux demander un flux XML : ça évitera de foutre à terre le serveur visé...
ce n'est pas pour le vol, en fait là je suis dans un pays qui censure des sites, alors je crée un aspirateur que je vais heberger sur un hebergeur non censuré et qui me permettra de récupérer les pages censurée...c'est donc pour une bonne cause![]()
Dans ce cas c'est un proxy que tu dois mettre en place...
les proxy seront détecté et censuré eux aussi ...
Test avec ça si tu peux récupérer les urls des images
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9 function getUrls($string, $strict=true) { $types = array("href", "src", "url"); while(list(,$type) = each($types)) { $innerT = $strict?'[a-z0-9:?=&@/._-]+?':'.+?'; preg_match_all ("|$type\=([\"'`])(".$innerT.")\\1|i", $string, &$matches); $ret[$type] = $matches[2]; } return $ret; }
Partager