IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Transmission de donnés


Sujet :

Langage Perl

  1. #1
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut Transmission de donnés
    Voila j'ouvre un nouveau thread car maintenant j'ai cerné le problème .

    voici mon spider tel qu'il est actuellement

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    #!/usr/bin/perl -w
    use strict;
    use URI::URL;
    use HTTP::Request;
    use HTTP::Response;
    use HTTP::Cookies;
    require LWP::Parallel::UserAgent;
    use POSIX;
    use HTTP::Size;
    use HTML::Parse qw(parse_html);
     
    #===========================================================================#
    #                          Begin of configuration                           #
    #===========================================================================#
    my $arg;
    $| = 1;
    my $VERSION = "Bot/1.1";
     
     
     
     
    my $ua = LWP::Parallel::UserAgent->new('Mozilla/5.0 (compatible; Bot/1.1');
       $ua->max_hosts(400);
       $ua->max_req(400);
       $ua->wait(0);
       $ua->max_redirect(8000000000);
       $ua->protocols_allowed( [ 'http' ] );
       $ua->protocols_forbidden( [ 'file', 'mailto', 'https', 'ftp', 'socks', 'gopher'] );
       $ua->requests_redirectable( [ 'HEAD' ] );
       $ua->timeout(2);
       $ua->env_proxy;
       $ua->remember_failures(1);
       $ua->redirect(1);
     
       my $cookie_jar = HTTP::Cookies->new(
        file => 'lwp_cookies.dat',
        autosave => 1,
      );
     
       $ua->cookie_jar($cookie_jar);
     
     
    #===========================================================================#
    #                               The Robot                                   #
    #===========================================================================#
     
     
    my %urls;
     
    @urls{ @ARGV } = (1) x @ARGV;
     
    robot (keys %urls);
     
    # Ecrire un log d'evenement
    BEGIN {
    use CGI::Carp qw(carpout);
    open(LOG, ">>/log_spider.txt") or die "Impossible d'ouvrir : $!\n";
    carpout(*LOG);
    }
     
    sub robot
    {
     foreach my $link ( @_ ) {
     
       my $confirm = verif_link_format($link);
     
       if ( $confirm == 1) {
     
        my $req = HTTP::Request->new( 'GET', $link );
     
     
         $req->header('Accept' => [
                         qw(
                          text/html  application/xhtml+xml application/msexcel
                          application/msword application/pdf application/rtf
                          application/x-javascript application/x-httpd-php
                          text/rtf text/nux application/sxc application/sxw
                          application/sxd application/mdi application/x-httpd-asp
                          application/x-httpd-aspx application/x-httpd-mspx
                          application/x-httpd-cfm application/x-httpd-jthml
                          application/x-httpd-pm )
     
        ]
    );
     
     
     
     my $res = $ua->request($req, $arg, 4096);
     
    if ( $res->is_success ) {
     
        my ($code, $date, $size, %page, $base, $content_type);
     
         $code = $res->content;
     
         $date = date();
     
         $size = size($link);
     
         $base = $res->base;
     
         $content_type = $res->content_type;
     
              %page = (
     
     
                result => [
     
                             "$code", "$link",
                             "$date", "$size KB",
                             "$content_type"
     
                          ]
     
     
                );
     
                #print "$page{'result'}->[0]\n";
                print "=====================\n";
                print "$page{'result'}->[1]\n";
                print "$page{'result'}->[2]\n";
                print "$page{'result'}->[3]\n";
                print "$page{'result'}->[4]\n";
                print "====================\n";
     
     
           extor_links($code,$base);
     
       }
      }
     }
    }
     
     
     
    #===========================================================================#
    #                               Extract links                               #
    #===========================================================================#
     
    sub extor_links
    {
      my($url, %saw, @url);
      my $html=$_[0];
      my $base=$_[1];
     
      foreach ($html) {
     
     
        my $ht_tree = parse_html($_[0]);
        my ($linkpair, $fqurl);
     
          foreach $linkpair (@{$ht_tree->extract_links(qw<a>)}) {
            my($link,$elem) = @$linkpair;
             push(@url, $fqurl)
                 unless $saw{ $fqurl = url($link,$base)->abs->as_string }++;
        }
     
           my %keys_url = sort keys %saw;
     
           robot(%keys_url);
       }
    }
     
    #===========================================================================#
    #                      Keep only good extension to extor                    #
    #===========================================================================#
     
     
    sub verif_link_format
    {
     foreach my $link_format ( @_ )
     {
       if ( $link_format =~ m!^http://[_a-zA-Z0-9-]+\.[_a-zA-Z0-9-]+[.a-zA-Z0-9-]*(/~|/?)[/_.a-zA-Z0-9#?&=+-]*$!i) {
     
         return 1;
     
       }
        else
       {
     
         return 0;
     
       }
     }
    }
    Il souffre d'un bug , en fait quand je le lance a partir de la ligne de commande la fonction robot() est lancé comme suit
    robot (keys %urls);
    ,
    ce qui est bon ensuire dans ma fonction d'extraction de liens je relance le robot comme suit
    robot (@keys_url);
    , et c'est la que sa bloque , il semble que les deux lignes de commandes ce brouille

    Je cherche désespérement une solution pour faire marcher mon robot comme il faut mais je n'est que des echecs
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  2. #2
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Perl me sort une erreur que voici


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    [Tue Sep 20 23:00:38 2005] bot.pl: Odd number of elements in hash assignment at C:\Documents and Settings\Teddy\Bureau\bot.pl line 163
    .


    la ligne est question est celle-ci


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    my %keys_url = sort keys %saw;
    Savez vous a quoi cela correspond ??

    thanks
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  3. #3
    Membre expert
    Avatar de 2Eurocents
    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    2 177
    Détails du profil
    Informations personnelles :
    Âge : 54
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 2 177
    Points : 3 166
    Points
    3 166
    Par défaut
    Citation Envoyé par scaleo
    Perl me sort une erreur que voici

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    [Tue Sep 20 23:00:38 2005] bot.pl: Odd number of elements in hash assignment at C:\Documents and Settings\Teddy\Bureau\bot.pl line 163
    .
    Le message est assez clair ... Tu tentes de faire rentrer un nombre impair d'éléments dans un hash, ce qui n'est pas possible car un hash est une liste de paires (clef/valeur). Le nombre d'éléments d'un hash est donc nécessairement pair !

    Citation Envoyé par scaleo
    la ligne est question est celle-ci

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    my %keys_url = sort keys %saw;
    Savez vous a quoi cela correspond ??
    %saw est un hash, avec un nombre pair d'éléments, et dans ton cas, un nombre impair de couples (clefs/valeurs).

    keys %saw est une liste des clefs, et visiblement, dans ton cas, contient un nombre impair d'éléments.

    %keys_url devrait donc être une liste et pas un hachage. Tu devrais utiliser @keys_url ...


    Bon courage pour la suite.
    La FAQ Perl est par ici
    : La fonction "Rechercher", on aurait dû la nommer "Retrouver" - essayez et vous verrez pourquoi !

  4. #4
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Oki merci .

    Mon problème principale est la récursivité de mon script en effet , il "patine" , il ce bloque sur une ulr et il en décolle plus

    voici un log de l'activité de spider


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    =====================
    http://dirthangel.free.fr
    ====================
    =====================
    http://dirthangel.free.fr/index.php
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm
    ====================
    =====================
    http://dirthangel.free.fr/biographie.htm

    C'est comme si les données etait écraser , et donc renvoyé a l'infini aux spider poutant j'appel bien mon robot
    robot(@keys_url);
    , ont dirait une sorte de collision des données.

    Help !!!!!!!!!!!!!!!!!!!!
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  5. #5
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut



    Personne n'a une soluce ? : , c'est la première fois que je me trouve comfronté a ce genre de problème , d'écrasement de donné (si sais sa) , je ne voie vraiment pas comment débuggé mon script , qui en plus est bien codé
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  6. #6
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Bon ben comme personne répond je ferme le thread
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Tableaux] Transmission de données
    Par Klimium dans le forum Langage
    Réponses: 1
    Dernier message: 28/11/2006, 15h10
  2. Transmission de données au fichier
    Par supertatane dans le forum Langage
    Réponses: 3
    Dernier message: 04/07/2006, 16h36
  3. [C#]Transmission de données entre forms
    Par fafa139 dans le forum Windows Forms
    Réponses: 4
    Dernier message: 13/05/2006, 18h44
  4. transmission de donnée
    Par Tempotpo dans le forum Général JavaScript
    Réponses: 2
    Dernier message: 10/04/2006, 17h09
  5. Réponses: 2
    Dernier message: 13/05/2005, 15h20

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo