Précédent   Forum des professionnels en informatique > PHP > Bibliothèques et frameworks > XML > DOM
DOM Forum d'entraide pour l'extension DOM permettant de manipuler des documents XML en PHP 5 (approche DOM). Avant de poster -> tutoriels DOM
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 25/08/2011, 19h51   #1
Invité de passage
 
Inscription : mai 2009
Messages : 26
Détails du profil
Informations forums :
Inscription : mai 2009
Messages : 26
Points : 3
Points : 3
Par défaut Charger un document XML issu d'un appel AJAX

Bonjour a tous,

Il y a un site internet que je dois explorer automatiquement pour en extraire des infos.
Pour cela, j'utilise l'excellent DOMDocument et DOMXpath de PHP5

Mais j'ai remarqué que je ne pouvais pas charger le DOM issu d'appels AJAX (normal me direz vous, vu que c'est du code client).

Ma question est la suivante, y a t'il une méthode me permettant de récuperer en php, le contenu d'un DOM issu d'AJAX ?

J'avais pensé à tout d'abord parser ma page pour en extraire l'url de la page appellé en AJAX, et ensuite re-parser le contenu de la réponse, mais le script effectue des vérifications sur les données de la requetes comme l'IP ou d'autres et me renvoie une belle 403.

Vous avez une idée sur une autre méthode ?

Merci d'avance
Land3r est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 25/08/2011, 20h40   #2
Modérateur
 
Inscription : septembre 2010
Messages : 7 131
Détails du profil
Informations forums :
Inscription : septembre 2010
Messages : 7 131
Points : 8 491
Points : 8 491
récupère direct les requêtes
__________________
http://blog.stealth35.com/
stealth35 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/08/2011, 16h29   #3
Invité de passage
 
Inscription : mai 2009
Messages : 26
Détails du profil
Informations forums :
Inscription : mai 2009
Messages : 26
Points : 3
Points : 3
Merci d'avoir répondu si vite.

J'ai bien essayé cette méthode, mais en envoyant tous les paramètres, le script distant me renvoie un texte disant erreur 403 au lieu du div que cela affiche sur leur site.
Je ne comprends pas ...

Voila mon code cURL :
Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
 
<?php
$url = 'http://www.allostreaming.com/films/secure.php';
$timeout = 10;
 
$ch = curl_init($url);
 
curl_setopt($ch, CURLOPT_FRESH_CONNECT, true);
curl_setopt($ch, CURLOPT_FORBID_REUSE, true);
curl_setopt($ch, CURLINFO_HEADER_OUT, true);
curl_setopt($ch, CURLOPT_NOPROGRESS, false);
 
curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt($ch, CURLOPT_REFERER, 'http://www.allostreaming.com/films/player.php?u=eLInwzgB3uGd0eLV4IUwaCanGtlsfLZ39Qd2W1UGbpU_o&t=mix');
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.0; rv:6.0) Gecko/20100101 Firefox/6.0 FirePHP/0.6');
 
curl_setopt($ch, CURLOPT_POST, TRUE);
curl_setopt($ch, CURLOPT_POSTFIELDS, array('k', '_iGoBgFWCMeVPPgmWIjHkvWF2EoCQvnjX1DKVGZPVS3_x8PXR3sO6C8OQ6Rm8_iRvKAbylzA29JOffbTv7qOepTIA_o_o'));
 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
 
$page_content = curl_exec($ch);
 
curl_close($ch);
echo $page_content;
?>
Je pense qu'ils doivent effectuer une vérification sur je ne sais quelle donnée ...
Mais ce qui est bizarre, c'est que si je met sur une page web sur mon serveur le code iframe dans lequel l'appel AJAX est effectué, la page se charge normalement ...
Donc ça ne peut pas être une vérification d'ip.

Je ne vois pas ce que j'ai mal fait :/
Land3r est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/08/2011, 17h00   #4
Modérateur
 
Inscription : septembre 2010
Messages : 7 131
Détails du profil
Informations forums :
Inscription : septembre 2010
Messages : 7 131
Points : 8 491
Points : 8 491
désolé mais on ne va pas t'aider à faire du data mining et encore moins sur ce type de site
__________________
http://blog.stealth35.com/
stealth35 est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 26/08/2011, 17h02   #5
Membre chevronné
 
Homme
Développeur Web
Inscription : mars 2011
Messages : 399
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Développeur Web
Secteur : Finance

Informations forums :
Inscription : mars 2011
Messages : 399
Points : 662
Points : 662
ça ressemble à du data-mining (ce qui est moyennement toléré) d'un site moyennement légal...
__________________
Membre de StackOverflow, je suis un fervant utilisateur de PHP et de jQuery.
Après des études de graphisme, j'ai décidé de mélanger développement web et web design. J'ai ainsi donc créé mon site web mais aussi plusieurs projets personnels.
Dans les plus aboutis, vous pourrez trouver dans mon labo et dans mon devblog, un raccourcisseur d'url, un bookmarklet pour envoyer l'url de la page actuelle vers votre email pour lire plus tard ou sauvegarder, mon générateur de template HTML5, etc...
Shikiryu est déconnecté   Envoyer un message privé Réponse avec citation 20
Vieux 26/08/2011, 17h04   #6
Invité de passage
 
Inscription : mai 2009
Messages : 26
Détails du profil
Informations forums :
Inscription : mai 2009
Messages : 26
Points : 3
Points : 3
Ok, si vous voulez ....
Je tient juste à préciser que le data-mining est autorisé tant que le contenu en question (juste une url en l'occurrence) n'est pas sous droit d'auteur.

Merci quand même
Land3r est déconnecté   Envoyer un message privé Réponse avec citation 02
Vieux 26/08/2011, 17h11   #7
Modérateur
 
Inscription : septembre 2010
Messages : 7 131
Détails du profil
Informations forums :
Inscription : septembre 2010
Messages : 7 131
Points : 8 491
Points : 8 491
Citation:
Envoyé par Land3r Voir le message
Je tient juste à préciser que le data-mining est autorisé tant que le contenu en question (juste une url en l'occurrence) n'est pas sous droit d'auteur.
c'est pas tellement une question de droit d'auteur, mais de bande passante, si le site propose une api tu doit l'utiliser, si il en a pas demande à ce que le site en crée une, si il refuse ça veux dire qu'il ne veulent pas qu'on leur pompe leur information.
__________________
http://blog.stealth35.com/
stealth35 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/08/2011, 17h24   #8
Invité de passage
 
Inscription : mai 2009
Messages : 26
Détails du profil
Informations forums :
Inscription : mai 2009
Messages : 26
Points : 3
Points : 3
C'est surtout en effet le fait qu'ils veulent pas qu'on pompe leurs infos.
Il y a une telle concurrence dans ce secteur ..., ou ne serais-ce pour éviter les robots de signalement automatique (aux hébérgeurs), ce que je tente de faire.

C'est bien pourquoi il font un appel en AJAX avec une vérification de host pour récuperer une url au lieu de tout bettement la mettre dans la source html.

Mais j'ai trouvé une solution qui devrait marché, mais qui est relativement complexe pour le but recherché.

Je vais créer une page php qui prendra un paramètre (l'url de l'iframe) et qui chargera une page avec JQuery et la dite iframe, qui va alors faire son appel AJAX.
Ensuite, je n'aurait plus qu'a utiliser XPath pour en extraire le lien et le renvoyer en AJAX sur une autre page de mon serveur qui sauvegardera le lien associé à une vidéo et qui renverra à la page le nouvel identifiant de l'iframe a parser, et je ferais une redirection avec JQuery vers cette nouvelle page.
Ca devrait marcher ^^'
Land3r est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/08/2011, 17h47   #9
Membre chevronné
 
Homme
Développeur Web
Inscription : mars 2011
Messages : 399
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Développeur Web
Secteur : Finance

Informations forums :
Inscription : mars 2011
Messages : 399
Points : 662
Points : 662
Pas du tout. Il est "toléré" parce que souvent peu détecté ou le webmaster s'en fiche un peu. Mais légalement, ce que vous dites est totalement faux.

Le contenu que vous "pompez" n'est pas que l'URL, mais bien le code html du site, et donc ses textes.

Citation d'avocat :
http://www.brmavocats.com/avocats/20...droit-dauteur/

Citation:
II- Titularité des droits sur le site

La titularité des droits sur les éléments intégrés au site, ne doit pas être confondue avec la titularité des droits sur le site lui-même.
Le site WEB est une œuvre de l’esprit dans la mesure où il répond aux conditions de nouveauté et d’originalité exigées par le Code de la Propriété intellectuelle.
Citation:
Les textes sont également protégeables par le droit d’auteur, ainsi que les logiciels.
__________________
Membre de StackOverflow, je suis un fervant utilisateur de PHP et de jQuery.
Après des études de graphisme, j'ai décidé de mélanger développement web et web design. J'ai ainsi donc créé mon site web mais aussi plusieurs projets personnels.
Dans les plus aboutis, vous pourrez trouver dans mon labo et dans mon devblog, un raccourcisseur d'url, un bookmarklet pour envoyer l'url de la page actuelle vers votre email pour lire plus tard ou sauvegarder, mon générateur de template HTML5, etc...
Shikiryu est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 26/08/2011, 19h46   #10
Invité de passage
 
Inscription : mai 2009
Messages : 26
Détails du profil
Informations forums :
Inscription : mai 2009
Messages : 26
Points : 3
Points : 3
Je suis tout a fait d'accord dans le sens d'un texte, paragraphe ou autre écrit forcement par un auteur.

Ici, il ne s'agit que d'une url, externe au site qui plus est.
Cela ne représente a mon sens, aucune violation de la propriété intellectuelle, ou alors des dizaines de sites webs seraient victime de piratage (cfs les différents crawlers et spiders sur internet (GoogleBot etc...)).

A noter qu'une action en justice a déjà étée intentée a l'encontre d'un moteur de recherche peu connu (je connais plus le nom) car il explorait des liens qui étaient interdits par le robots.txt et le moteur de recherche a gagné son procès.
Ce que je fait est exactement le même processus, mais sur des sites webs ciblés ...
Land3r est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/08/2011, 19h52   #11
Modérateur
 
Inscription : septembre 2010
Messages : 7 131
Détails du profil
Informations forums :
Inscription : septembre 2010
Messages : 7 131
Points : 8 491
Points : 8 491
de toute façon c'est très mal vu de faire ça, on ne peut pas t’encourager à la faire
__________________
http://blog.stealth35.com/
stealth35 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/08/2011, 19h58   #12
Invité de passage
 
Inscription : mai 2009
Messages : 26
Détails du profil
Informations forums :
Inscription : mai 2009
Messages : 26
Points : 3
Points : 3
Ne vous inquiétez pas, de toute façon mon projet doit aboutir, étant donné qu'il s'agira de mon sujet de TIPE de l'année prochaine pour mon école.
Land3r est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 02h58.


 
 
 
 
Partenaires

Hébergement Web