IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Expression régulière et URL


Sujet :

Langage Perl

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Inscrit en
    Novembre 2005
    Messages
    110
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 110
    Par défaut Expression régulière et URL
    Bonjour à tous,

    voici mon problème.
    Je n'arrive pas à comprendre ou est l'erreur dans mon expression régulière
    J'aimerai en fait trouver tous les liens d'une page html des fichiers de type gz ou bz2. Voici ce que j'ai pour le moment (avec des affichages tests) :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
     
    $regex='/"((ht|f)tp:\/\/.*.(bz2|gz))">/';
    $fichier=$ARGV[0];
    open(FICHIER, "<$fichier") or die "Impossible de lire le fichier";
    $n=0;
    while (<FICHIER>) {
    	if ($regex) {
    		print  "$1--$n\n";
    		$n++;
    	}else{
    		print "RIEN\n";
    	}
    }
    close(FICHIER);
    Ce que j'obtiens au final c'est l'affichage de toutes les lignes du fichiers mais vides!
    --0
    --1
    --2
    --3
    --4
    --5
    --6
    --7
    --8
    --9
    --10
    --11
    --12
    --13
    etc
    Je fais le test avec cette page ci : http://lfs.traduc.org/view/lfs-6.4-f.../packages.html

    Quelqu'un aurait trouvé le problème?

  2. #2
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    Utilises donc HTML::LinkExtor ou HTML::SimpleLinkExtor et filtre le résultat sur gz ou bz2...

    Sinon, il y a des expressions régulières toutes faites avec ce module : Regexp::Common::URI

  3. #3
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    En uniligne, ça donne ceci :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    perl -MHTML::SimpleLinkExtor -e 'my $extor = HTML::SimpleLinkExtor->new();print join "\n", grep /gz|bz2/, $extor->parse_url("http://lfs.traduc.org/view/lfs-6.4-fr/chapter03/packages.html")->links();'
    Ou sous forme de script (les arguments passés sont les URL) :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    use strict;
    use warnings;
    use HTML::SimpleLinkExtor;
     
    my $extor = HTML::SimpleLinkExtor->new();
    foreach my $url (@ARGV) {
      print map "$_\n", grep /gz|bz2/, $extor->parse_url($url)->links();
    }

  4. #4
    Membre confirmé
    Inscrit en
    Novembre 2005
    Messages
    110
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 110
    Par défaut
    Merci!! Ca fonctionne correctement...
    Ce forum est d'une aide très précieuse
    Merci encore!

  5. #5
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 822
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 822
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    #!/usr/bin/perl
    use strict;
    use warnings;
     
    my $regex = '.(?:bz2|gz)$';
    my $n = 1;
    foreach my $Lien ( ListerLiensPageWeb('http://lfs.traduc.org/view/lfs-6.4-fr/chapter03/packages.html') ) {
      if ( $Lien =~ m{$regex} ) {
        print "$n - $Lien\n";
        $n++;
      }
    }
     
    sub ListerLiensPageWeb {
      my ($url) = @_;
     
      use HTML::SimpleLinkExtor;
      my $extor = HTML::SimpleLinkExtor->new();
     
      $extor->parse_url($url);
     
      return $extor->a;
    }
    1 - http://ftp.gnu.org/gnu/autoconf/autoconf-2.63.tar.bz2
    2 - http://ftp.gnu.org/gnu/automake/automake-1.10.1.tar.bz2
    3 - http://ftp.gnu.org/gnu/bash/bash-3.2.tar.gz
    4 - http://ftp.gnu.org/gnu/bash/bash-doc-3.2.tar.gz
    5 - http://download-east.oracle.com/berk...-4.7.25.tar.gz
    6 - http://ftp.gnu.org/gnu/binutils/binutils-2.18.tar.bz2
    7 - http://ftp.gnu.org/gnu/bison/bison-2.3.tar.bz2
    8 - http://www.bzip.org/1.0.5/bzip2-1.0.5.tar.gz
    9 - http://ftp.gnu.org/gnu/coreutils/coreutils-6.12.tar.gz
    10 - http://ftp.gnu.org/gnu/dejagnu/dejagnu-1.4.4.tar.gz
    11 - http://ftp.gnu.org/gnu/diffutils/diffutils-2.8.1.tar.gz
    12 - http://prdownloads.sourceforge.net/e...-1.41.3.tar.gz
    13 - http://expect.nist.gov/src/expect-5.43.0.tar.gz
    14 - ftp://ftp.astron.com/pub/file/file-4.26.tar.gz
    15 - http://ftp.gnu.org/gnu/findutils/findutils-4.4.0.tar.gz
    16 - http://prdownloads.sourceforge.net/f...2.5.35.tar.bz2
    17 - http://ftp.gnu.org/gnu/gawk/gawk-3.1.6.tar.bz2
    18 - http://ftp.gnu.org/gnu/gcc/gcc-4.3.2/gcc-4.3.2.tar.bz2
    19 - http://ftp.gnu.org/gnu/gettext/gettext-0.17.tar.gz
    20 - ftp://sources.redhat.com/pub/glibc/s...080929.tar.bz2
    21 - http://ftp.gnu.org/gnu/gmp/gmp-4.2.4.tar.bz2
    22 - http://ftp.gnu.org/gnu/grep/grep-2.5.3.tar.bz2
    23 - http://ftp.gnu.org/gnu/groff/groff-1.18.1.4.tar.gz
    24 - ftp://alpha.gnu.org/gnu/grub/grub-0.97.tar.gz
    25 - http://ftp.gnu.org/gnu/gzip/gzip-1.3.12.tar.gz
    26 - http://sethwklein.net/iana-etc-2.30.tar.bz2
    27 - http://ftp.gnu.org/gnu/inetutils/inetutils-1.5.tar.gz
    28 - http://developer.osdl.org/dev/iprout...2.6.26.tar.bz2
    29 - http://ftp.altlinux.com/pub/people/l...-1.14.1.tar.gz
    30 - http://www.greenwoodsoftware.com/less/less-418.tar.gz
    31 - http://www.linuxfromscratch.org/lfs/...081031.tar.bz2
    32 - http://ftp.gnu.org/gnu/libtool/libtool-2.2.6a.tar.gz
    33 - http://www.kernel.org/pub/linux/kern...6.27.4.tar.bz2
    34 - http://ftp.gnu.org/gnu/m4/m4-1.4.12.tar.bz2
    35 - http://ftp.gnu.org/gnu/make/make-3.81.tar.bz2
    36 - http://download.savannah.gnu.org/rel...b-2.5.2.tar.gz
    37 - http://www.kernel.org/pub/linux/docs...s-3.11.tar.bz2
    38 - http://www.kernel.org/pub/linux/util...-3.4.1.tar.bz2
    39 - http://www.mpfr.org/mpfr-current/mpfr-2.3.2.tar.bz2
    40 - ftp://ftp.gnu.org/gnu/ncurses/ncurses-5.6.tar.gz
    41 - http://ftp.gnu.org/gnu/patch/patch-2.5.4.tar.gz
    42 - http://cpan.org/src/perl-5.10.0.tar.gz
    43 - http://procps.sourceforge.net/procps-3.2.7.tar.gz
    44 - http://prdownloads.sourceforge.net/p...sc-22.6.tar.gz
    45 - http://ftp.gnu.org/gnu/readline/readline-5.2.tar.gz
    46 - http://ftp.gnu.org/gnu/sed/sed-4.1.5.tar.gz
    47 - ftp://pkg-shadow.alioth.debian.org/p....1.2.1.tar.bz2
    48 - http://www.infodrom.org/projects/sys...ogd-1.5.tar.gz
    49 - ftp://ftp.cistron.nl/pub/people/miqu...it-2.86.tar.gz
    50 - http://ftp.gnu.org/gnu/tar/tar-1.20.tar.bz2
    51 - http://prdownloads.sourceforge.net/t...5.5-src.tar.gz
    52 - http://ftp.gnu.org/gnu/texinfo/texinfo-4.13.tar.gz
    53 - http://www.kernel.org/pub/linux/util...ev-130.tar.bz2
    54 - http://www.linuxfromscratch.org/lfs/...081015.tar.bz2
    55 - http://www.kernel.org/pub/linux/util...2.14.1.tar.bz2
    56 - ftp://ftp.vim.org/pub/vim/unix/vim-7.2.tar.bz2
    57 - ftp://ftp.vim.org/pub/vim/extra/vim-7.2-lang.tar.gz
    58 - http://www.zlib.net/zlib-1.2.3.tar.bz2

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. expressions régulières sur url
    Par silvio7 dans le forum Général Python
    Réponses: 9
    Dernier message: 21/12/2011, 14h40
  2. Expression régulière sur URL
    Par dany013 dans le forum EDI, CMS, Outils, Scripts et API
    Réponses: 15
    Dernier message: 21/03/2011, 10h51
  3. [Expressions régulières] validation url sous JS
    Par Sayrus dans le forum Général JavaScript
    Réponses: 5
    Dernier message: 12/02/2007, 08h46
  4. Expression régulière - URL
    Par Lung dans le forum Langage
    Réponses: 6
    Dernier message: 06/07/2006, 18h34
  5. [RegEx] Expression régulière pour réduire des URL
    Par kivan666 dans le forum Langage
    Réponses: 6
    Dernier message: 11/06/2006, 21h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo