IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Probleme de regex - extraction url avec tiret


Sujet :

Langage Perl

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    152
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 152
    Points : 65
    Points
    65
    Par défaut Probleme de regex - extraction url avec tiret
    Bonjour

    Il semblerai que j'ai un probleme avec mon code perl...Je pense que cela vient du regex.

    Je souhaite extraire des url de plusieurs sites web.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
     
    sub parseHosts {
    	my ($url) = @_;
    	my $content = `curl --header "User-agent: " $url 2>&1`;
    	my $hostpattern = "[a-z0-9][a-z0-9-]*[.][a-z.]+[a-z]";
    	my $p1 = "value=[\"]($hostpattern)[\"]";
    	my $p2 = "<li>($hostpattern)";
            my $p3 = "<a>($hostpattern)";
    	my $c = 0;
    	while ($content =~ m/($p1)|($p2)|($p3)/igs) {
    		if ($maxhostsperurl > 0 && ++$c > $maxhostsperurl) {
    			print "<b>Thread " . threads->self()->tid() . " exiting, after $maxhostsperurl hosts in test mode.</b> Set \$maxhostsperurl to 0 for a full run. <br/>\n";
    			return;
    		}
    		if ($2) {
    			processHost($2);
    		} elsif ($4) {
    			processHost($4);
    		} elsif ($6) {
    			processHost($6);
    		}
    	}
    }
    p1, p2, p3 fonctionnent pour tous les types d'url excepté s'il y a un tiret et www. Ex: mon-site.com sera trouvé mais pas www.mon-site.com
    ou monsite.ho-la.com ou voila-mon-site.com de meme arrete-un-peu.co.uk ne sera pas trouvé (avec ou sans www. devant)

    Je ne veux pas recupérer les http://

    Pourriez vous m aider svp pour adapter le regex afin que les liens avec tirets soient aussi extraits?

    merci

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 499 184
    Points
    499 184
    Par défaut
    Pour extraire les url d'une page html, pas besoin de se prendre le chou avec les regex. cpan est là pour nous
    Voir modules HTML-SimpleLinkExtor

Discussions similaires

  1. Probleme url avec variable id
    Par 20cents dans le forum Balisage (X)HTML et validation W3C
    Réponses: 1
    Dernier message: 06/09/2010, 14h18
  2. [RegEx] validation url avec les regex
    Par morgan47 dans le forum Langage
    Réponses: 1
    Dernier message: 10/02/2007, 13h57
  3. Comment extraire une partie d'URL avec REGEX?
    Par STB_Fk dans le forum Langage
    Réponses: 2
    Dernier message: 24/01/2007, 12h59
  4. [RegEx] Extraction d'URL avec preg_match_all()
    Par pdtor dans le forum Langage
    Réponses: 2
    Dernier message: 20/01/2007, 11h22
  5. [RegEx] Pb Regex extraction URL
    Par fly06 dans le forum Langage
    Réponses: 3
    Dernier message: 17/09/2006, 21h58

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo