IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Crawsler qui fonctionne mais pas totalement


Sujet :

Langage PHP

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Homme Profil pro
    Développeur Web
    Inscrit en
    Octobre 2007
    Messages
    282
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : France, Gers (Midi Pyrénées)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Octobre 2007
    Messages : 282
    Par défaut Crawsler qui fonctionne mais pas totalement
    Bonjour, voila, je dois faire pour mon taf un script qui permet de récupérer les liens présents sur un site. J'ai donc créer 2 fonctions, la première récupère l'url initiale puis récupère le contenu de la page à analyser pour ensuite sauvegarder, après des traitements regex, le lien. En fonction de la structuration du lien, le traitement diffère. S'il y a le mot mairie, ou le mot ville, il stocke l'url dans un fichier. Par contre, si l'url dispose des mots departement ou ville, je souhaite qui relance l'annalyse de la page dites.
    Voici mon script actuel:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
     
    <?php
    function recupurlville($url)
    {
    $curl=curl_init();
    curl_setopt($curl,CURLOPT_URL,$url);
    curl_setopt($curl,CURLOPT_RETURNTRANSFER,true);
    $contenu=curl_exec($curl);
    $RegEx = '#<[aA](\s)*(href|HREF)(\s)*=(\s)*[\"|\'](.*?)[\"|\'](.*?)>#is';  
    preg_match_all($RegEx,$contenu,$Results,PREG_PATTERN_ORDER);
    $tableaux=array_unique($Results[5]);  
    	foreach ($tableaux as $Link)  
    	{  
    		if (ereg('/',$Link)) 
    		{
    				if (!ereg('http://',$Link)) 
    				{
    					if(ereg('mairie-',$Link) or ereg('ville-',$Link) /* or ereg('region-',$Link) or ereg('departement-',$Link)*/) 
    					{
    								if(ereg('ville-',$Link))
    								{
    									scanurl("lenomdudomaine$Link");
    									echo "<hr />";
    									ajoutdanstxt($Link);
    								}
    								if(ereg('mairie-',$Link)) 
    								{
    									scanurl("lenomdudomaine$Link");
    									echo "<hr />";
    									ajoutdanstxt($Link);
    								}			
       					}
       				}
    		}
    	}
    }
    function ajoutdanstxt($Link)
    {
    $file = 'texte.txt';
    // Ouvre un fichier pour lire un contenu existant
    $current = file_get_contents($file);
    // Ajoute une personne
    $current .= "http://lenomdudomaine$Link\n";
    // Écrit le résultat dans le fichier
    file_put_contents($file, $current);	
    }
    recupurlville("lenomdudomaine/departement-hautes-pyrenees.html");
    ?>

    En gros, je voudrais optimiser ce code pour le rendre plus rapide et plus stable, mais également, pouvoir éviter que le code face une boucle infinie en rescannant les url déjà faite.
    Quelqu'un pourrait-il m'aider?
    N'hésitez pas à me demander d'autre renseignement.

    merci d'avance.
    lemirandais.

  2. #2
    Membre éclairé
    Homme Profil pro
    Chef de projet NTIC
    Inscrit en
    Février 2008
    Messages
    71
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Chef de projet NTIC

    Informations forums :
    Inscription : Février 2008
    Messages : 71
    Par défaut
    2 petites optimisations :

    - Remplace ton foreach par un for sur un count($tableaux), c'est beaucoup plus performant.
    - Tu fais tes If du plus général au plus spécifique : tu peux faire l'inverse : cherche le plus spécifique et élimine ensuite les liens dont tu ne veux pas. Par exemple, tu veux éliminer les http://. Dans ton code, les liens http:// vont passer le premier if(/), et être bloqués par un deuxième if(http://). En inversant les 2, les http:// vont être éliminés dès la première boucle, t'épargnant l'interprétation d'un if() supplémentaire.

Discussions similaires

  1. Condition If qui fonctionne mais pas Else
    Par Christophe.G dans le forum VBScript
    Réponses: 16
    Dernier message: 05/12/2014, 01h15
  2. SELECT qui fonctionne mais pas UPDATE
    Par Kentin64 dans le forum Requêtes
    Réponses: 7
    Dernier message: 22/08/2011, 12h04
  3. Réponses: 3
    Dernier message: 14/04/2009, 11h29
  4. Réponses: 1
    Dernier message: 03/08/2007, 10h09
  5. [FLASH 8] : FLA qui fonctionne mais pas le SWF
    Par xtaze dans le forum Flash
    Réponses: 9
    Dernier message: 24/10/2006, 09h14

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo