|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Invité de passage
![]() Inscription : mai 2009 Messages : 26 ![]() |
Bonjour a tous,
Il y a un site internet que je dois explorer automatiquement pour en extraire des infos. Pour cela, j'utilise l'excellent DOMDocument et DOMXpath de PHP5 Mais j'ai remarqué que je ne pouvais pas charger le DOM issu d'appels AJAX (normal me direz vous, vu que c'est du code client). Ma question est la suivante, y a t'il une méthode me permettant de récuperer en php, le contenu d'un DOM issu d'AJAX ? J'avais pensé à tout d'abord parser ma page pour en extraire l'url de la page appellé en AJAX, et ensuite re-parser le contenu de la réponse, mais le script effectue des vérifications sur les données de la requetes comme l'IP ou d'autres et me renvoie une belle 403. Vous avez une idée sur une autre méthode ? Merci d'avance |
|
|
00
|
|
|
#2 |
![]() ![]() Inscription : septembre 2010 Messages : 7 131 ![]() |
récupère direct les requêtes
__________________
http://blog.stealth35.com/ |
|
|
00
|
|
|
#3 | ||
|
Invité de passage
![]() Inscription : mai 2009 Messages : 26 ![]() |
Merci d'avoir répondu si vite.
J'ai bien essayé cette méthode, mais en envoyant tous les paramètres, le script distant me renvoie un texte disant erreur 403 au lieu du div que cela affiche sur leur site. Je ne comprends pas ... Voila mon code cURL : Code :
Mais ce qui est bizarre, c'est que si je met sur une page web sur mon serveur le code iframe dans lequel l'appel AJAX est effectué, la page se charge normalement ... Donc ça ne peut pas être une vérification d'ip. Je ne vois pas ce que j'ai mal fait :/ |
||
|
|
00
|
|
|
#4 |
![]() ![]() Inscription : septembre 2010 Messages : 7 131 ![]() |
désolé mais on ne va pas t'aider à faire du data mining et encore moins sur ce type de site
__________________
http://blog.stealth35.com/ |
|
|
10
|
|
|
#5 |
|
Membre chevronné
![]() Développeur Web Inscription : mars 2011 Messages : 399 ![]() |
ça ressemble à du data-mining (ce qui est moyennement toléré) d'un site moyennement légal...
__________________
Membre de StackOverflow, je suis un fervant utilisateur de PHP et de jQuery. Après des études de graphisme, j'ai décidé de mélanger développement web et web design. J'ai ainsi donc créé mon site web mais aussi plusieurs projets personnels. Dans les plus aboutis, vous pourrez trouver dans mon labo et dans mon devblog, un raccourcisseur d'url, un bookmarklet pour envoyer l'url de la page actuelle vers votre email pour lire plus tard ou sauvegarder, mon générateur de template HTML5, etc... |
|
20
|
|
|
#6 |
|
Invité de passage
![]() Inscription : mai 2009 Messages : 26 ![]() |
Ok, si vous voulez ....
Je tient juste à préciser que le data-mining est autorisé tant que le contenu en question (juste une url en l'occurrence) n'est pas sous droit d'auteur. Merci quand même |
|
|
02
|
|
|
#7 |
![]() ![]() Inscription : septembre 2010 Messages : 7 131 ![]() |
c'est pas tellement une question de droit d'auteur, mais de bande passante, si le site propose une api tu doit l'utiliser, si il en a pas demande à ce que le site en crée une, si il refuse ça veux dire qu'il ne veulent pas qu'on leur pompe leur information.
__________________
http://blog.stealth35.com/ |
|
|
00
|
|
|
#8 |
|
Invité de passage
![]() Inscription : mai 2009 Messages : 26 ![]() |
C'est surtout en effet le fait qu'ils veulent pas qu'on pompe leurs infos.
Il y a une telle concurrence dans ce secteur ..., ou ne serais-ce pour éviter les robots de signalement automatique (aux hébérgeurs), ce que je tente de faire. C'est bien pourquoi il font un appel en AJAX avec une vérification de host pour récuperer une url au lieu de tout bettement la mettre dans la source html. Mais j'ai trouvé une solution qui devrait marché, mais qui est relativement complexe pour le but recherché. Je vais créer une page php qui prendra un paramètre (l'url de l'iframe) et qui chargera une page avec JQuery et la dite iframe, qui va alors faire son appel AJAX. Ensuite, je n'aurait plus qu'a utiliser XPath pour en extraire le lien et le renvoyer en AJAX sur une autre page de mon serveur qui sauvegardera le lien associé à une vidéo et qui renverra à la page le nouvel identifiant de l'iframe a parser, et je ferais une redirection avec JQuery vers cette nouvelle page. Ca devrait marcher ^^' |
|
|
00
|
|
|
#9 | ||
|
Membre chevronné
![]() Développeur Web Inscription : mars 2011 Messages : 399 ![]() |
Pas du tout. Il est "toléré" parce que souvent peu détecté ou le webmaster s'en fiche un peu. Mais légalement, ce que vous dites est totalement faux.
Le contenu que vous "pompez" n'est pas que l'URL, mais bien le code html du site, et donc ses textes. Citation d'avocat : http://www.brmavocats.com/avocats/20...droit-dauteur/ Citation:
Citation:
__________________
Membre de StackOverflow, je suis un fervant utilisateur de PHP et de jQuery. Après des études de graphisme, j'ai décidé de mélanger développement web et web design. J'ai ainsi donc créé mon site web mais aussi plusieurs projets personnels. Dans les plus aboutis, vous pourrez trouver dans mon labo et dans mon devblog, un raccourcisseur d'url, un bookmarklet pour envoyer l'url de la page actuelle vers votre email pour lire plus tard ou sauvegarder, mon générateur de template HTML5, etc... |
||
|
10
|
|
|
#10 |
|
Invité de passage
![]() Inscription : mai 2009 Messages : 26 ![]() |
Je suis tout a fait d'accord dans le sens d'un texte, paragraphe ou autre écrit forcement par un auteur.
Ici, il ne s'agit que d'une url, externe au site qui plus est. Cela ne représente a mon sens, aucune violation de la propriété intellectuelle, ou alors des dizaines de sites webs seraient victime de piratage (cfs les différents crawlers et spiders sur internet (GoogleBot etc...)). A noter qu'une action en justice a déjà étée intentée a l'encontre d'un moteur de recherche peu connu (je connais plus le nom) car il explorait des liens qui étaient interdits par le robots.txt et le moteur de recherche a gagné son procès. Ce que je fait est exactement le même processus, mais sur des sites webs ciblés ... |
|
|
00
|
|
|
#11 |
![]() ![]() Inscription : septembre 2010 Messages : 7 131 ![]() |
de toute façon c'est très mal vu de faire ça, on ne peut pas t’encourager à la faire
__________________
http://blog.stealth35.com/ |
|
|
00
|
|
|
#12 |
|
Invité de passage
![]() Inscription : mai 2009 Messages : 26 ![]() |
Ne vous inquiétez pas, de toute façon mon projet doit aboutir, étant donné qu'il s'agira de mon sujet de TIPE de l'année prochaine pour mon école.
|
|
|
00
|
Copyright © 2000-2012 - www.developpez.com