IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Modules Perl Discussion :

WwW::Mechanize et /robots.txt


Sujet :

Modules Perl

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut WwW::Mechanize et /robots.txt
    Bonjour à tous,

    Je souhaiterais savoir si le module WWW::Mechanize respecte les règles de /robots.txt ?
    La documentation du module n'en parle pas, et j'ai trouvé peu d'infos sur le net, et plutôt contradictoire :
    OUI - http://www.infoqu.com/dev/perl-progr...oblem-33618-1/
    NON - http://www.webmasterworld.com/search...rs/3866421.htm

    En fouillant dans les sources et dans LWP::UserAgent, je n'ai rien trouvé.

    Il est possible qu'il faille alors utiliser LWP::RobotUA.
    Dans ce contexte, et si j'ai bien vrai, est-il possible de configurer WWW::Mechanize pour qu'il utilise LWP::RobotUA à la place de LWP::UserAgent ?

  2. #2
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    Une alternative pourrait être d'utiliser WWW::Mechanize::Sleepy et de positionner le paramètre sleep avec une valeur reflétant le Crawl-delay de /robots.txt, et d'utiliser WWW::RobotRules pour vérifier chaque URL demandée de façon à être compatible avec le contenu de /robots.txt. Un peu lourd...

    D'autres idées ?

  3. #3
    Membre averti
    Profil pro
    Inscrit en
    Juin 2004
    Messages
    22
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2004
    Messages : 22
    Par défaut
    Salut

    WWW::Mechanize ne respecte rien

    A priori c est donc a toi de gerer le fichier robots.txt (en perl ou avec un module du cpan ).

    Cependant la plupart des sites qui ne veulent pas etre parser utilise plutot le .htaccess pour selectionner les user agent, pour eviter ce genre de souci, tu peux faire ca :

    $mech->agent_alias( 'Windows IE 6' );

  4. #4
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    Merci pour ta réponse.
    Quel avantage trouverai-je à me faire passer pour un navigateur ?

  5. #5
    Membre averti
    Profil pro
    Inscrit en
    Juin 2004
    Messages
    22
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2004
    Messages : 22
    Par défaut
    T'as la meme page dans ton perl et dans le 'View Page Source' de Firefox

    En faite le module homonyme de WWW::Mechanize de Python gere apparement le fichier robots.txt, ca vaut peut-etre le coup de le verifier sur la version perl

  6. #6
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Par défaut
    Citation Envoyé par Fanch.g Voir le message
    T'as la meme page dans ton perl et dans le 'View Page Source' de Firefox
    Je n'ai actuellement pas de problème à ce niveau. Mais je retiens l'info.
    En faite le module homonyme de WWW::Mechanize de Python gere apparement le fichier robots.txt, ca vaut peut-etre le coup de le verifier sur la version perl
    Oui, j'ai vu pour python. En revanche, j'ai fait une recherche approfondie, et rien ne montre que /robots.txt soit pris en charge.

Discussions similaires

  1. robot.txt à quoi ca sert ? Comment on s'en sert ?
    Par naima2005 dans le forum Référencement
    Réponses: 5
    Dernier message: 07/12/2007, 14h30
  2. robots.txt / user agent / htaccess
    Par Invité dans le forum Apache
    Réponses: 5
    Dernier message: 26/07/2006, 14h37
  3. robots.txt / user agent / htaccess
    Par Invité dans le forum Langage
    Réponses: 2
    Dernier message: 25/07/2006, 10h58
  4. moteurs de recherche: obligation de respecter robot.txt?
    Par piotr dans le forum Référencement
    Réponses: 6
    Dernier message: 25/07/2006, 02h58
  5. Cherche parseur fichier robots.txt
    Par bluecurve dans le forum Langage
    Réponses: 9
    Dernier message: 12/07/2005, 07h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo