Précédent   Forum des professionnels en informatique > Webmasters - Développement Web > Général Conception Web
Général Conception Web Forum d'entraide sur les choix technologiques. Avant de poster : Cours Dév. Web, FAQs Dév. Web, Sources Dév. Web
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 19/09/2007, 09h50   #1
Invité régulier
 
Inscription : septembre 2007
Messages : 34
Détails du profil
Informations forums :
Inscription : septembre 2007
Messages : 34
Points : 6
Points : 6
Par défaut Parser html, quel langage ?

Bonjour,
A l'aide ! Comme tout novice en dev web (langage habituel c++),
je ne sais quel langage choisir et si c'est possible...
J'ai fait un module en c++ qui execute des recherches sur plusieurs sites,
et parse les pages de résultats pour les afficher...
Maintenant il me faudrait une version multiplateforme...
Est-il possible de le faire avec une techno web ? Laquelle ?
Je précise qu'il serait bien que le parsing se fasse coté client pour ne pas surcharger le serveur (car de nombreuses requetes se feront).

Merci de votre aide !
perrinpotez est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 19/09/2007, 10h28   #2
Membre chevronné
 
Avatar de haltabush
 
Développeur Web
Inscription : avril 2005
Messages : 726
Détails du profil
Informations personnelles :
Âge : 27
Localisation : France

Informations professionnelles :
Activité : Développeur Web

Informations forums :
Inscription : avril 2005
Messages : 726
Points : 790
Points : 790
Tu dois pouvoir faire ça en Javascript, je pense (XMLHTTPREQUEST (pas forcément asynchrone, c'est juste pour récupérer le code HTML de la page à parser) puis DOM pour le parsage proprement dit.
Ceci dit, si tu as beaucoup de page à parser, ça va ramer je pense
__________________
HADOPI : black-out du net!
haltabush est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 19/09/2007, 10h38   #3
Invité régulier
 
Inscription : septembre 2007
Messages : 34
Détails du profil
Informations forums :
Inscription : septembre 2007
Messages : 34
Points : 6
Points : 6
Merci, je vais regarder ca,
J'ai oublié un détail, le click sur un bouton:
Une page html que je parse contient peut etre plusieurs pages...
Peut-on avec ta methode simuler le click sur le bouton "page suivante" et récupérer la page suivante pour la parser aussi,etc... ?

Merci d'avance...
perrinpotez est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 19/09/2007, 10h39   #4
Membre chevronné
 
Avatar de haltabush
 
Développeur Web
Inscription : avril 2005
Messages : 726
Détails du profil
Informations personnelles :
Âge : 27
Localisation : France

Informations professionnelles :
Activité : Développeur Web

Informations forums :
Inscription : avril 2005
Messages : 726
Points : 790
Points : 790
Sans doute oui, il faut que tu récupère les url et que tu y aille (balises a href, boutons submit, etc)... Par contre tu va te taper des boucles infinies du coup.
__________________
HADOPI : black-out du net!
haltabush est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 19/09/2007, 10h53   #5
Invité régulier
 
Inscription : septembre 2007
Messages : 34
Détails du profil
Informations forums :
Inscription : septembre 2007
Messages : 34
Points : 6
Points : 6
Thks, je demandais ca car,
en regardant le code source de ces pages sur ces sites,
certaines ont un lien html pour la page suivante de resultats,
mais d'autres ont un lien du style "javascript:..."...
Si ca marche je devrais pouvoir stopper en récuperant le nombre de pages...
perrinpotez est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 19/09/2007, 10h56   #6
Membre chevronné
 
Avatar de haltabush
 
Développeur Web
Inscription : avril 2005
Messages : 726
Détails du profil
Informations personnelles :
Âge : 27
Localisation : France

Informations professionnelles :
Activité : Développeur Web

Informations forums :
Inscription : avril 2005
Messages : 726
Points : 790
Points : 790
Arf, si tu veux interpréter le Javascript de la page, ça risque d'être compliqué...
Moi ce que je ferais, c'est une recherche sur window.location, href, http, etc et je récupère l'url qu'il y a derrière. Il faudra aussi teste s'il y a des doublons avant d'aller analyser la page.
__________________
HADOPI : black-out du net!
haltabush est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 19/09/2007, 10h58   #7
Invité régulier
 
Inscription : septembre 2007
Messages : 34
Détails du profil
Informations forums :
Inscription : septembre 2007
Messages : 34
Points : 6
Points : 6
J'espere que le sessionID ne posera pas de probleme ?
on peut faire des XMLHTTPREQUEST en conservant la session ouverte ?
Dans mon module en c++, j'ouvre une session dans un browser virtuel, et simule les clicks...
perrinpotez est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 19/09/2007, 11h15   #8
Membre chevronné
 
Avatar de haltabush
 
Développeur Web
Inscription : avril 2005
Messages : 726
Détails du profil
Informations personnelles :
Âge : 27
Localisation : France

Informations professionnelles :
Activité : Développeur Web

Informations forums :
Inscription : avril 2005
Messages : 726
Points : 790
Points : 790
Ok, ben dans ce cas il vaut mieux rester en C++ je suppose...
Javascript ne te simulera pas des clicks, enfin je crois pas que ce soit possible simplement.
__________________
HADOPI : black-out du net!
haltabush est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 14h57.


 
 
 
 
Partenaires

Hébergement Web