Précédent   Forum des professionnels en informatique > PHP > PHP & SGBD > PHP & MySQL
PHP & MySQL Forum d'entraide sur les fonctions MySQL avec PHP. Avant de poster -> FAQ MySQL, Cours MySQL et Sources MySQL. Pour les questions concernant le moteur MySQL plutôt que les fonctions PHP, merci d'utiliser le forum MySQL.
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 13/05/2011, 20h46   #1
Invité de passage
 
Inscription : mai 2011
Messages : 3
Détails du profil
Informations forums :
Inscription : mai 2011
Messages : 3
Points : 0
Points : 0
Par défaut Créer un analyseur de site

Bonjour,

N'ayant pas trouvé de section générale je post ici à défaut d'ailleurs.

En fait j'ai des bases en programmation mais seulement des bases. J'aimerais faire un bot analyseur de pages. C'est à dire un peu à la manière des bot de moteurs de recherches qui parcourent les pages en utilisant les liens et qui finissent par référencer les sites entiers. Moi ce que j'aimerais faire est similaire un bon qui par exemple parcourerait toutes les pages de developpez.com à la recherche du mot "Salutations" et qui renverraient l'adresse correspondante.

Je voulais savoir si des gens ayant un certain recule sur la programmation pouvaient m'aiguiller :

-Quel language serait le mieux adapté pour faire ca, php, perl voire c ou c++ ?
-Par ou commencer, j'ai les bases de programmation mais je ne sais pas du tout comment faire pour dire à un programme de télécharger le code html d'une page. Si déjà je savais faire ca je pense que je pourrais me débrouiller.

Voilà merci !
Wicelo est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 13/05/2011, 21h17   #2
Modérateur
 
Avatar de Benjamin Delespierre
 
Benjamin Delespierre
Développeur Web
Inscription : février 2010
Messages : 2 984
Détails du profil
Informations personnelles :
Nom : Benjamin Delespierre
Âge : 24
Localisation : France

Informations professionnelles :
Activité : Développeur Web
Secteur : High Tech - Opérateur de télécommunications

Informations forums :
Inscription : février 2010
Messages : 2 984
Points : 5 016
Points : 5 016
Hello

Ce que tu cherches a faire existe déjà et ça s'appelle un spider. En voici un par exemple écrit en php: http://www.sphider.eu/

Pour ce qui est de récupérer des flux HTML tu peux regarder du coté de DOMDocument.
__________________
A la recherche d'un framework MVC facile a prendre en main ? Essayez Axiom
Nouveau: la référence d'Axiom est disponible sur GitHub (je la peaufine en ce moment même).

Un problème correctement identifié est à moitié résolu, évitez de poster l'intégralité de votre code avec pour seule explication "ça ne marche pas...".
Pour identifier correctement vos problèmes PHP, utilisez la gestion des erreurs et xdebug.

Les boutons et existent, servez-vous en
Benjamin Delespierre est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 13/05/2011, 22h42   #3
Expert Confirmé
 
Avatar de Séb.
 
Inscription : mars 2005
Messages : 2 823
Détails du profil
Informations personnelles :
Âge : 34
Localisation : France

Informations professionnelles :
Secteur : High Tech - Opérateur de télécommunications

Informations forums :
Inscription : mars 2005
Messages : 2 823
Points : 3 449
Points : 3 449
Citation:
Envoyé par Wicelo Voir le message
-Quel language serait le mieux adapté pour faire ca, php, perl voire c ou c++ ?
PHP ou Perl sont appropriés car possèdent pas mal de fonctions de manipulations de chaînes ou d'analyse de pages/HTML/XML comme Tidy, DOM, etc. En C tu risques d'en baver pas mal.

Citation:
-Par ou commencer, j'ai les bases de programmation mais je ne sais pas du tout comment faire pour dire à un programme de télécharger le code html d'une page.
Code :
$page = file_get_contents('h**p://www.unsite.com/unepage.html') ;
__________________
Un problème exposé clairement est déjà à moitié résolu
Keep It Smart and Simple
Séb. est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 13h23.


 
 
 
 
Partenaires

Hébergement Web