Interpréter le JavaScript

**johnny-57** · 30/09/2016, 10h21

Bonjour,

J'ai besoin de développer un webcrawler qui soit capable d'interpréter le javascript. L'idée étant de faire de la veille concurrentielle, je suis souvent bloqué avec php/curl sur des sites comme ebay qui n'autorise pas l'utilisation du moteur de recherche si JS est désactivé ou d'autre qui affiche les prix après appel javascript. J'ai trouvé phantomjs, mais je ne suis pas certain que ça réponde à mon besoin. Des idées/pistes ?

Merci d'avance.

**ohnomorejmmings** · 03/10/2016, 13h42

Pour les gros sites il y a généralement des APIs et sinon pourquoi pas se reposer sur un navigateur en codant un greffon. Sous Mozilla Firefox il y a un tout un écosystème pour bidouiller JavaScript & Cie sur des pages Web.

**johnny-57** · 03/10/2016, 16h51

En effet, amazon par exemple a une API, idem pour Cdiscount. Ebay par contre n'en n'a plus, google shopping n'en a pas etc...

Mon soucis c'est que j'ai besoin de communiquer avec mon serveur pour récupérer des informations de recherche, de comparaison en utilisant des systèmes maison de comparaison de contenu, d'image etc... Je sais bien qu'il serait plus simple d'appeler les pages avec un navigateur, mais je ne saurai même pas par où commencer. Je n'ai aucune idée des possibilités d'inter-action avec mon serveur par exemple.

**sekaijin** · 03/10/2016, 20h24

développer le webcrawler en js avec node.js
developper le webcrawler en C++ et embarquer V8 ou un autre
développer le webcrawler en java avec java8 qui contient un interprète nommé Nashorn

A+JYT

**ohnomorejmmings** · 04/10/2016, 13h55

Pas d'API officielle ? Peut-être qu'il en existe une alternative et même plusieurs. D'ailleurs d'un certain point de vue tu cherches à développer une solution similaire même si plus modeste. Faut comprendre qu'on est pas les seuls à hacker joyeusement des sites pour extraire des données et plus si affinités !

Sinon pour des pistes je pense à Greasemonkey, même si c'est pour personnaliser le fonctionnement d'un site ça très ludique et donc idéal pour découvrir ce monde merveilleux, et surtout des ressources comme le Mozilla Developer Network. Les possibilités sont infinies : Extension (JavaScript & Cie), greffon en C/C++, accès à des bases de données… L'avantage c'est de disposer de la puissance du moteur d'un navigateur. Par exemple la fonctionnalité d'archivage d'une page une fois tout son contenu chargée et exécutée donc miam miam (X)HTML, CSS, JavaScript…

Après je peux pas t'aider plus précisément car je suis un petit joueur ! Mais j'ai été suffisamment curieux pour faire quelques découvertes intéressantes.

**johnny-57** · 07/10/2016, 09h05

Envoyé par sekaijin

développer le webcrawler en js avec node.js
developper le webcrawler en C++ et embarquer V8 ou un autre
développer le webcrawler en java avec java8 qui contient un interprète nommé Nashorn

A+JYT

C'est peut être une piste. Mon crawler est basé sur un module que j'ai acheté qui est conçu en groovy, donc java, lui fait appel à des fonctions php donc me laisse très libre de ce que je voudrai faire avec les données. Je n'ai donc pas eu à réinventer la roue sur la base du crawler même si j'aurai très bien pu le faire en pure php. Est ce que je pourrai simplement y greffer java8 ? Je précise, je n'y connais rien en java, js, etc... Mes seuls amis sont php/mysql/html

@ohnomorejmmings

Si je n'arrive pas à adapter l’existant, je pense que je partirai sur une solution comme la tienne.

**johnny-57** · 10/10/2016, 09h31

La réponse du développeur du module sous groovy :

Cela semble très complexe. Nashorn déjà ne simule pas la page web, il n'interprète que le javascript, autrement dit vous n'avez pas d'interaction entre le DOM du HTML et les commandes javascript. C'est surtout l'évaluation de fonctions javascript hors contexte que fait la librairie.

Ensuite il ne charge pas tous les scripts d'une pages web (qui dépendent généralement les uns des autres). Ca semble difficilement concevable. Si on voudrait interpréter le javascript d'une page web, le mieux est d'utiliser une librairie comme jWebBrowser mais c'est plus lourd, nous ne l'inclurons pas dans notre outil. Par contre en groovy vous pouvez charger des librairies non incluse dans notre outil. Si vous en avez le besoin, vous pouvez donc l'utiliser

Qu'en pensez vous ?

**ohnomorejmmings** · 10/10/2016, 14h27

Que ce module répond pas à ton besoin de récupérer le contenu généré par du JavaScript ou tout du moins à intercepter une exécution afin d'en faire ce que tu veux. Désolé si j'ai un peu perdu le sens du schmilblique héhé !

Interpréter le JavaScript

JavaScript

Discussions similaires

Partager

Partager