IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Modules Perl Discussion :

WWW-Search-Pagesjaunes et HTTP::Recorder


Sujet :

Modules Perl

  1. #1
    Nouveau membre du Club
    Inscrit en
    Août 2005
    Messages
    47
    Détails du profil
    Informations forums :
    Inscription : Août 2005
    Messages : 47
    Points : 28
    Points
    28
    Par défaut WWW-Search-Pagesjaunes et HTTP::Recorder
    Bonjour à tous,

    j'ai trouvé ce module Pagesjaunes sur le cpan mais il n'est plus fonctionnel, en faite il ne récupère plus l'intégralité des résultats d'une recherche seulement la première page =~ 10 adresses.

    Donc je voudrais le modifier mais je n'arrive pas à voir quels sont les input du form qui sont nécessaires !

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
     
     
    <form id="form_jauge_none" name="form_jauge_none" method="POST" action="pj.cgi">
    <input type=hidden name="faire" value="print">
    <input type=hidden name="IMPR" value="">
    <input type="hidden" name="OBJ_GEO" value="4/;;;;/8;075;077;078;091;092;093;094;095">
    <input type="hidden" name="THEME_ACTIVITE" value="plombiers">
    <input type="hidden" name="THEME_DON_PRF" value="plombiers">
    <input type="hidden" name="SESSION_ID" value="FB-AA85304-14DAE">
    <input type="hidden" name="VID" value="FA-A7B7AEA-356E2">
    <input type="hidden" name="LISTEPUB" value="|W|U|D|S|">
    <input type="hidden" name="INFO_VILLE" value="non">
    <input type="hidden" name="CODE_LOC_INFO_VILLE" value="00000000">
    <input type="hidden" name="IV_ACTIVATION" value="oui">
    <input type="hidden" name="lang" value="FR">
    <input type="hidden" name="pays" value="FR">
    <input type="hidden" name="srv" value="PJ">
    <input type="hidden" name="ACTIVITE_VALIDATED_ASCII" value="R30208000;">
    <input type="hidden" name="TYPE_RECHERCHE" value="PDEP">
    <input type="hidden" name="SAV_DEPARTEMENT" value="idf">
    <input type="hidden" name="SAV_ACTIVITE" value="plombier">
    <input type="hidden" name="CODRUBSELECT" value="R30208000;">
    <input type="hidden" name="FRM_ACTIVITE" value="plombier">
    <input type="hidden" name="FRM_DEPARTEMENT" value="idf">
    <input type="hidden" name="FRM_TYPE_PUB" value="TOUS">
    <input type="hidden" name="IDF_CD" value="MDMxNA--">
    <input type="hidden" name="NB_REP_TOTAL_NONE" value="6045">
    <input type="hidden" name="FIRST_REP_PRINT_NONE" value="1">
    <input type="hidden" name="LAST_REP_PRINT_NONE" value="10">
    <input type="hidden" name="CTX_PRINT_NIV_PREC" value="1">
    <input type="hidden" name="CUR_ORTHO_PRINT" value="NONE">
    <input type="hidden" name="CTX_REP_PRINT" value=""
    <input type="hidden" name="CTX_PRINT_TYPE_RECHERCHE" value="2">
    <input type="hidden" name="CTX_PRINT_SERVICE_TYPE" value="402">
    <input type="hidden" name="LISTE_CHOIX" value="-">
    <input type="hidden" name="VIGNETTE_1" value="http://sbx.pagesjaunes.fr/RealMedia/ads/Creatives/OasDefault/20050701528818R0001/20050701528818R0001.gif">
    <input type="hidden" name="VIGNETTE_2" value="http://sbx.pagesjaunes.fr/RealMedia/ads/Creatives/OasDefault/20050703242647R0001/20050703242647R0001.gif">
    <input type="hidden" name="VIGNETTE_3" value="http://sbx.pagesjaunes.fr/RealMedia/ads/Creatives/OasDefault/20050700528368R0001/20050700528368R0001.gif">
    <input type="hidden" name="BANDEAU_PUB_GIF" value="http://sbx.pagesjaunes.fr/RealMedia/ads/Creatives/OasDefault/20050707279881BTN0001/20050707279881BTN0001.gif">
    <input type="hidden" name="TOTEM_PUB_GIF_NONE" value="-">
    </form>

    quelqu'un pourrait il me faire un export des input nécessaires grâce à HTTP::Recorder. Car je suis au bureau et je ne peux pas utiliser le proxy de HTTP:roxy qui est localhost:8080 sinon je ne peux plus accéder à Internet et donc voir les échanges entre mon navigateur et le formulaire !

    merci à tous,
    panaone

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    j'arrive même pas à l'utiliser:
    c'est quoi ton script, car je fais ceci!
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
     
    #!/usr/bin/perl -w
    use strict;
    use Carp;
    use WWW::Search::Pagesjaunes;
     
     my $pj = new WWW::Search::Pagesjaunes;
     $pj->find( activite => "Plombier", localite => "Paris" );
     
     do {
        print $_->entry . "\n" foreach ($pj->results);
     } while $pj->has_more;
    et j'ai un message d'erreur
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    Can't call method "value" on an undefined value at C:/Perl/site/lib/WWW/Search/Pagesjaunes.pm line 48.

  3. #3
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    Djibril, t'as téléchargé une version antédiluvienne ou corrompue parce que y a rien ligne 48 dans ce module...
    Pour moi, ce script a pas trop mal marché après que j'ai changé l'useragent par défaut... (mais il semblerait que PagesJaunes.fr soit disfonctionne, soit a une politique très sévère envers les bots, parce que maintenant je n'arrive plus à obtenir le site après trois essais gentils Vous me dites s'il marche pour vous ? ).

    Mais par contre il faut bien faire une boucle comme dans l'exemple de djibril (qui est extrait de la doc !! ) pour récupérer tous les résultats (ou plutôt le max entre le nombre de résultat et $pj->{limit}.

    --
    Jedaï

  4. #4
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    rien à faire, même message.
    j'ai installé le module via ppm et j'ai la version 0.06

  5. #5
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    Bah c'est bien ce que je dis : antédiluvienne !! On en est à la 0.14 maintenant !
    Récupère le sur le CPAN si tu veux : c'est du Perl pur, tu peux même te contenter de faire une sauvegarde de la source dans ton répertoire /site/lib/WWW/search/Pagesjaunes.pm .

    (J'aimerais bien savoir si je suis le seul à ne plus avoir accès à pagesjaunes.fr, vous pourriez me renseigner en allant y faire un tour ?)

    --
    Jedaï

  6. #6
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    j'arrive à y aller http://www.pagesjaunes.fr/

  7. #7
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    Ok... Il sont vraiment super sévères : j'ai dû faire une vingtaine de requètes en dix minutes à tout casser.

    Donc vous êtes prévenu : mettez un useragent mensonger (celui de votre navigateur par exemple), et mettez des sleep()s entre vos ->results() parce que sinon ce module ne vous servira pas longtemps !!

    --
    Jedaï

  8. #8
    Nouveau membre du Club
    Inscrit en
    Août 2005
    Messages
    47
    Détails du profil
    Informations forums :
    Inscription : Août 2005
    Messages : 47
    Points : 28
    Points
    28
    Par défaut
    Merci les gars de vous pencher sur le pb !

    alors voilà je vais vous expliquer comment procéder avec le module :
    - 1 vous devez installer la dernière version du module à laquelle j'avais perticipé pour effectuer des modifs :
    http://search.cpan.org/~briac/WWW-Se...esjaunes-0.14/

    - 2 pour lancer le module il faut tout d'abord modifier l'entête de l'agent dans pagesjaunes.pm (à la ligne 27 chez moi) par exemple en utilisant :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
     
    sub ROOT_URL() { 'http://www.pagesjaunes.fr' }
     
    sub new {
        my $class = shift;
        my $self  = {};
        my $ua    = shift() || WWW::Mechanize->new(
            env_proxy  => 1,
            keep_alive => 1,
            timeout    => 10,
            agent      => "Firefox",
        );
    Si vous ne modifiez pas l'entête alors pagesjaunes vous éjecte !!

    3 la version actuelle Search-Pagesjaunes-0.14/ ne permet plus de récupérer l'ensemble des résultats seulement la première page. Il y a un mois j'avais modifié le code et cela refonctionné voici le code modifié :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    235
    236
    237
    238
    239
    240
    241
    242
    243
    244
    245
    246
    247
    248
    249
    250
    251
    252
    253
    254
    255
    256
    257
    258
    259
    260
    261
    262
    263
    264
    265
    266
    267
    268
    269
    270
    271
    272
    273
    274
    275
    276
    277
    278
    279
    280
    281
    282
    283
    284
    285
    286
    287
    288
    289
    290
    291
    292
    293
    294
    295
    296
    297
    298
    299
    300
    301
    302
    303
    304
    305
    306
    307
    308
    309
    310
    311
    312
    313
    314
    315
    316
    317
    318
    319
    320
    321
    322
    323
    324
    325
    326
    327
    328
    329
    330
    331
    332
    333
    334
    335
    336
    337
    338
    339
    340
    341
    342
    343
    344
    345
    346
    347
    348
    349
    350
    351
    352
    353
    354
    355
    356
    357
    358
    359
    360
    361
    362
    363
    364
    365
    366
    367
    368
    369
    370
    371
    372
    373
    374
    375
    376
    377
    378
    379
    380
    381
    382
    383
    384
    385
    386
    387
    388
    389
    390
    391
    392
    393
    394
    395
    396
    397
    398
    399
    400
    401
    402
    403
    404
    405
    406
    407
    408
    409
    410
    411
    412
    413
    414
    415
    416
    417
    418
    419
    420
    421
    422
    423
    424
    425
    426
    427
    428
    429
    430
    431
    432
    433
    434
    435
    436
    437
    438
    439
    440
    441
    442
    443
    444
    445
    446
    447
    448
    449
    450
    451
    452
    453
    454
    455
     
     
     
    use Carp qw(carp croak);
    use HTML::Form;
    use WWW::Mechanize;
    use HTML::TokeParser;
    use HTTP::Request::Common;
    use LWP::UserAgent;
     
     
     
    $WWW::Search::Pagesjaunes::VERSION = '0.13';
     
     
     
     
    sub ROOT_URL() { 'http://www.pagesjaunes.fr' }
     
    sub new {
        my $class = shift;
        my $self  = {};
        my $ua    = shift() || WWW::Mechanize->new(
            env_proxy  => 1,
            keep_alive => 1,
            timeout    => 10,
            agent      => "Firefox",
        );
     
     
     
        $self->{ua}    = $ua;
        $self->{limit} = 1000;
        $self->{fast}  = 0;
        $self->{error} = 1;
        $self->{lang}  = 'FR';
    	$self->{activite}='plombier';
    	$self->{departement}='idf';
     
    #'recouvrements commerciaux et autres'
     
        bless( $self, $class );
    }
     
    sub agent {
        my $self = shift;
        if ( $_[0] ) {
            my $old = $self->{ua};
            $self->{ua} = $_[0];
            return $old;
        }
        else {
            return $self->{ua};
        }
    }
     
    sub find {
        my $self = shift;
        my %opt  = @_;
     
        my $p = $self->{activite} ? 'j' : 'b';
     
        # Make the first request to pagesjaunes.fr
        $self->{URL} = ROOT_URL . "/p$p.cgi";
     
     
        if ( $self->{fast} ) {
            $self->{req} = POST(
                $self->{URL},
                [
                    faire           => 'decode_input_image',
                    DEFAULT_ACTION  => $p . 'f_inscriptions_req',
                    lang            => $self->{lang},
                    pays            => 'FR',
                    srv             => uc("p$p"),
                    TYPE_RECHERCHE  => 'ZZZ',
                    input_image     => '',
                    FRM_ACTIVITE    => $p eq 'j' ? $self->{activite} : undef,
                    FRM_NOM         => $opt{nom},
                    FRM_PRENOM      => $p eq 'b' ? $opt{prenom}   : undef,
                    FRM_ADRESSE     => $opt{adresse},
                    FRM_LOCALITE    => $opt{localite},
                    FRM_DEPARTEMENT => $opt{departement},
                    '${p}F_INSCRIPTIONS_REQ.x' => 100,
                    '${p}F_INSCRIPTIONS_REQ.y' => 1,
                ]);
        }
        else {
            my $req = $self->{ua}->get($self->{URL});
     
            if ( !$req->content || !$req->is_success ) {
                croak('Error while retrieving the HTML page');
            }
     
            my @forms = HTML::Form->parse( $req->content, $self->{URL} );
     
            # BooK finds the form by grepping thru all of them, instead
            # of limiting ourselves to the first and second form.
            my ($form) = grep { $_->find_input('lang') } @forms;
     
            eval {
                # HTML::Form complains when you change hidden fields values.
                local $^W;
                $form->value( 'lang', $self->{lang} );
                $form->value( 'FRM_ACTIVITE', $self->{activite} ) if $self->{activite};
                $form->value( 'FRM_NOM',      $opt{nom} );
                $form->value( 'FRM_PRENOM',   $opt{prenom} )   if !$self->{activite};
                $form->value( 'FRM_ADRESSE',  $opt{adresse} );
                $form->value( 'FRM_LOCALITE', $opt{localite} );
                $form->value( 'FRM_DEPARTEMENT', $self->{departement} );
     
            };
            croak "Cannot fill the pagesjaunes request form. try with the 'fast' option\n" if $@;
     
            $self->{limit} = $opt{limit} || $self->{limit};
     
     
            $self->{req} = $form->click;
        }
     
        return $self;
    }
     
    sub results {
        my $self = shift;
     
        my $result_page = $self->{ua}->request( $self->{req} )->content;
     
        my $parser      = HTML::TokeParser->new( \$result_page );
     
        # All the <br> tags are transformed to '§¤§', to separate
        # multiple phone numbers
        $parser->{textify} = {
            'br' => sub() { '§¤§' }
        };
     
        my @results;
     
        if ( $self->{limit} == 0 ) {
            $self->{has_more} = 0;
            return @results;
        }
     
        # XXX This is a really crude parsing of the data, but it seems to
        # get the job done.
        #
        # <table class="fdcadreinscr">
        #   <tr>
        #     <td>
        #       <table class="fdinscr">
        #         <tr class="fdrsinscr">
        #           <td class="txtrsinscr">Name</td>
        #           <td class="txtrsinscr" align=right>&nbsp;</td>
        #         </tr>
        #         <tr valign="top">
        #           <td class="txtinscr">Address</td>
        #           <td align="right" class=txtinscr nowrap>(télécopie)? Phone</td>
        #         </tr>
        #       </table>
        #     </td>
        #   </tr>
        #  </table>
        #
        $self->{has_more} = 0;
     
        while ( my $token = $parser->get_tag("table") ) {
            next
              unless $token->[1]
              && $token->[1]{class}
              && $token->[1]{class} eq 'fdinscr';
            {    # We're inside an entry table
     
                $parser->get_tag("td");    # The first <td> is the name
                my $name = _trim( $parser->get_trimmed_text('/td') );
     
                $parser->get_tag("td");    # The second <td> is ignored
     
                $parser->get_tag("td");    # The third <td> is the address
                my $address = _trim( $parser->get_trimmed_text('/td') );
                $address =~ s/\W*\|.*$//g;
     
                $parser->get_tag("td");    # The fourth <td> is the phone number
                my $phone = _trim( $parser->get_trimmed_text('/td') );
                my @phones = map { _trim($_); s/\.(\s*\d)/$1/; $_ }  split(/§¤§/, $phone);
     
                # The fifth <td> tag is either the mail or the descr, depending
                # on the class
                my @emails = ('');
                my $tag = $parser->get_tag("td");
                if ( $tag->[1]{class} && $tag->[1]{class} eq 'txtinscr'){
                   my $email  = _trim( $parser->get_trimmed_text('/td') );
                   @emails = map { _trim($_); s/Mail\s*:\s*//; $_ }  split(/§¤§/, $email);
                }
     
     
                push(
                    @results,
                    WWW::Search::Pagesjaunes::Entry->new(
                        $name, $address, [ @phones ], [ @emails ]#, $website
                    )
                );
     
                return @results if --$self->{limit} == 0;
            }
        }
     
     
    	# XXX - The form is sometimes commented??
    	$result_page =~ s/<!-- (<form id="form_jauge_none")/$1/;
     
    	# We select the form by its id attribute "form_jauge_none".
    	my @forms = grep { 
    	$_->attr("id") && $_->attr("id") eq "form_jauge_none" }
    	HTML::Form->parse( $result_page, $self->{URL} );
     
    	# Print the $result for see the content  
    	my $DATA= "./debug.txt";
    	open (DATA, ">$DATA")or die "Cannot open $DATA for write :$!";
    	print DATA $result_page;
    	close DATA;
     
    	unless (@forms) {
    	$self->{has_more} = 0;
    	return;
    	}
     
    	# Affectation of the form in the scalar $form_jauge_none.
    	my $form_jauge_none = shift @forms;
     
    	# Identification of the values.
    	$self->{last_rep}  = $form_jauge_none->value("LAST_REP_PRINT_NONE");
    	$self->{first_rep} = $form_jauge_none->value("FIRST_REP_PRINT_NONE");
    	$self->{nb_rep} = $form_jauge_none->value("NB_REP_TOTAL_NONE");
     
    	if ( $self->{last_rep} <= $self->{nb_rep} ) {
    		$self->{first_rep} += 10;
    		$self->{last_rep} += 10;
     
    	{
    		local $^W;
    		$form_jauge_none->value( 'FIRST_REP_PRINT_NONE', $self->{first_rep} );
    		$form_jauge_none->value( 'LAST_REP_PRINT_NONE', $self->{last_rep} );
     
     
    	}
     
    	#warn "** there's more $$self{first_rep}..$$self{last_rep} of $$self{nb_rep}\n";
     
    	$self->{has_more} = 1;
    	$self->{req}      = $form_jauge_none->click();
    	}
     
     
        # If there was no result, we look for an error message in the HTML page
        if ( !@results && $self->{error} ) {
            $parser = HTML::TokeParser->new( \$result_page );
            while ( my $token = $parser->get_tag("font") ) {
                next
                  unless $token->[1]
                  && $token->[1]{color}
                  && $token->[1]{color} eq '#ff0000';
                $parser->{textify} = {
                    'br' => sub() { " " }
                };
                carp _trim( $parser->get_trimmed_text('/font') ) . "\n";
            }
        }
     
        wantarray ? @results : $results[0];
    }
     
    sub _trim {
        $_[0] =~ s/\xa0/ /g;       # Transform the &nbsp; into whitespace
        $_[0] =~ s/^\s*|\s*$//g;
        $_[0] =~ s/\s+/ /g;
        $_[0];
    }
     
    sub limit {
        my $self = shift;
        $self->{limit} = $_[0] || $self->{limit};
    }
     
    sub has_more { $_[0]->{has_more} }
     
    package WWW::Search::Pagesjaunes::Entry;
     
    # The entry object is a blessed array with the following indices:
    # 0 - Name
    # 1 - Address
    # 2 - Arrayref of phone numbers
    # 3 - E-mail (pj)
    # 4 - Notes  (pj)
    # 5 - Website  (pj)
     
    sub new     {
        my $class = shift;
        bless [ @_ ], $class
    }
    sub name    { $_[0]->[0] }
    sub address { $_[0]->[1] }
    sub phone   { $_[0]->[2] }
    sub email   { $_[0]->[3] }
    #sub website { $_[0]->[4] }
    sub entry   {
        # Name      Address     First email      Phones
        $_[0]->[0], $_[0]->[1], $_[0]->[3]->[0], @{ @{ $_[0] }[2] }#, $_[0]->[4],
    }
     
    1;
     
    __END__
     
    =pod
     
    =head1 NAME
     
    WWW::Search::Pagesjaunes - Lookup phones numbers from www.pagesjaunes.fr
     
    =head1 SYNOPSIS
     
     use WWW::Search::Pagesjaunes;
     
     my $pj = new WWW::Search::Pagesjaunes;
     $pj->find( activite => "Plombier", localite => "Paris" );
     
     do {
        print $_->entry . "\n" foreach ($pj->results);
     } while $pj->has_more;
     
    =head1 DESCRIPTION
     
    The WWW::Search::Pagesjaunes provides name, phone number and addresses of French
    telephone subscribers by using the L<http://www.pagesjaunes.fr>
    directory.
     
    =head1 METHODS
     
    Two classes are used in this module, a first one (WWW::Search::Pagesjaunes) to do the
    fetching and parsing, and the second one and a second one
    (WWW::Search::Pagesjaunes::Entry) holding the entry infos.
     
    Here are the methods for the main WWW::Search::Pagesjaunes module:
     
    =over 4
     
    =item new()
     
    The constructor accept an optional LWP::UserAgent as argument, if you want to
    provide your own.
     
    =item find( %request )
     
    Here are the values for the %request hash that are understood. They
    each have two name, the first is the french one and the second is the
    english one:
     
    =over 4
     
    =item nom / name
     
    Name of the person you're looking for.
     
    =item activite / business
     
    Business type of the company you're looking for. Note that if this
    field is filled, the module searches in the yellow pages.
     
    =item localite / town
     
    Name of the town you're searching in.
     
    =item prenom / firstname
     
    First name of the person you're looking for. It is not set if you set the
    'activite' field.
     
    =item departement / district
     
    Name or number of the Département or Région you're searching in.
     
    =back
     
    =item results()
     
    Returns an array of WWW::Search::Pagesjaunes::Entry containing the first matches of the
    query.
     
    =item limit($max_number_of_entries)
     
    Set the maximum number of entries returned. Default to 50.
     
    =item has_more()
     
    If the query leads to more than a few results, the field has_more is set. You
    can then call the results() method again to fetch the datas.
     
    =back
     
    The WWW::Search::Pagesjaunes::Entry class has six methods:
     
    =over 4
     
    =item new($name, $address, $phone, $fax)
     
    Returns a new WWW::Search::Pagesjaunes::Entry.
     
    =item name
     
    Returns the name of the entry.
     
    =item address
     
    Returns the address of the entry.
     
    =item phone
     
    Returns the phone number of the entry.
     
    =item is_fax
     
    Returns true if the phone number is a fax one, false otherwise. Note
    that currently, this method always returns 0.
     
    =item entry($separator)
     
    Returns the concatenation of the name and the phone number, separated by
    " - ". You can specify your own separator as first argument.
     
    =back
     
    =head1 BUGS
     
    The phone numbers are sometimes not correctly parsed, esp. when one
    entry has several phone numbers.
     
    If you found a bug and want to report it or send a patch, you are
    encouraged to use the CPAN Request Tracker interface:
    L<https://rt.cpan.org/NoAuth/Dists.html?Queue=WWW-Search-Pagesjaunes>
     
    =head1 COPYRIGHT
     
    Please read the Publisher information of L<http://www.pagesjaunes.fr> available at the following URL:
    L<http://www.pagesjaunes.fr/pj.cgi?html=commun/avertissement.html&lang=en>
     
    WWW::Search::Pagesjaunes is Copyright (C) 2002, Briac Pilpré
     
    This module is free software; you can redistribute it or modify it under the
    same terms as Perl itself.
     
    =head1 AUTHOR
     
    Briac Pilpré <briac@cpan.org>
     
    =cut
    mais le site a encore changé et je ne comprends pas ce qui ne marche pas ? bizarement j'ai l'impression lorsque je récupère $result le formulaire form_jauge_none n'est plus présent (cf : debug.txt ) ?

    Pour lancer le script vous devez lancer depuis le repertoire WWW-Search-Pagesjaunes-0.14 le fichier pagesjaunes en passant des arguments par exemple : perl pagesjaunes -act plombier -dep IDF

    ps : j'ai mis des variables en dure pour tester activité : PLOMBIER et département : IDF.


    merci pour votre aide les gars,
    panaone[/code][/url]

  9. #9
    Nouveau membre du Club
    Inscrit en
    Août 2005
    Messages
    47
    Détails du profil
    Informations forums :
    Inscription : Août 2005
    Messages : 47
    Points : 28
    Points
    28
    Par défaut
    Personne ? n'a trouvé une solution à mon problème ???

  10. #10
    Nouveau membre du Club
    Inscrit en
    Août 2005
    Messages
    47
    Détails du profil
    Informations forums :
    Inscription : Août 2005
    Messages : 47
    Points : 28
    Points
    28
    Par défaut
    Je suis entrain de cherché ! et je ne comprends pas pourquoi le contenu de $result que l'on peut voir dans le fichier debug.txt ne contient plus le formulaire form_jauge_none :


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    # Print the $result for see the content  
       my $DATA= "./debug.txt"; 
       open (DATA, ">$DATA")or die "Cannot open $DATA for write :$!"; 
       print DATA $result_page; 
       close DATA;
    Sans ce formulaire je ne peux pas passe aux résultats suivants ??? lorsque par contre je regarde le contenu de la source de page 2 récupérée avec IE là le formulaire est bien présent ??
    Est ce que le site distant pagesjaunes.fr remarque que j'utilise un agent perl bien que mon l'entête que je fournis est identique à celle de IE ??

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
     
     
    sub new {
        my $class = shift;
        my $self  = {};
        my $ua    = shift() || WWW::Mechanize->new(
            env_proxy  => 1,
            keep_alive => 1,
            timeout    => 10,
            agent      => "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.1.4322)",
        );
    je suis vraiment bloqué ici ! mais j'aime pas lacher l'affaire si facilement ...

    Panaone

Discussions similaires

  1. Developper un HTTP recorder
    Par barbie dans le forum Langages de programmation
    Réponses: 1
    Dernier message: 27/03/2008, 16h05
  2. Bug de HTTP::Cookies et WWW::Robotrules ?
    Par goblin dans le forum Web
    Réponses: 1
    Dernier message: 16/02/2006, 22h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo