Bonjour,
Je voudrais créer un script php qui permet d'aspirer une PAGE (et non pas un site) avec toutes ses images.
Merci
Bonjour,
Je voudrais créer un script php qui permet d'aspirer une PAGE (et non pas un site) avec toutes ses images.
Merci
commence déjà par par récupérer une page sans images
file, fopen, file_get_contents, sockets, curl, ...
c'est fait, avec fopen et fgets
ensuite c'est la récup des fichiers qui me préoccupe, je pense qu'il faudrait utilise les expressions régulière...que est pour moi un casse tête
preg_match_all, après etre faire un tour là dessus =>
http://www.expreg.com
Il te reste plus qu'à capturer les images (relatives !) qui sont dans img src="XXX", + d'autres comme dans les feuilles de styles
et pourquoi donc "aspirer" une page ?
Je rappel en passant que le vol de contenu, c'est mal (tm).
S'il s'agit d'un truc réellement fait pour (news par exemple), vaut mieux demander un flux XML : ça évitera de foutre à terre le serveur visé...
ce n'est pas pour le vol, en fait là je suis dans un pays qui censure des sites, alors je crée un aspirateur que je vais heberger sur un hebergeur non censuré et qui me permettra de récupérer les pages censurée...c'est donc pour une bonne cause
Dans ce cas c'est un proxy que tu dois mettre en place...
les proxy seront détecté et censuré eux aussi ...
Test avec ça si tu peux récupérer les urls des images
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9 function getUrls($string, $strict=true) { $types = array("href", "src", "url"); while(list(,$type) = each($types)) { $innerT = $strict?'[a-z0-9:?=&@/._-]+?':'.+?'; preg_match_all ("|$type\=([\"'`])(".$innerT.")\\1|i", $string, &$matches); $ret[$type] = $matches[2]; } return $ret; }
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager