IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Conception Web Discussion :

url Rewrite et robots.txt


Sujet :

Conception Web

  1. #1
    Membre confirmé
    Homme Profil pro
    Webmaster
    Inscrit en
    Juin 2010
    Messages
    221
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cambodge

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Juin 2010
    Messages : 221
    Par défaut url Rewrite et robots.txt
    Bonjour,

    Je ne sais pas si je suis dans le bon forum.

    Ma question es la suivante:

    Quand on faire de la reecriture d'url et des restrictions dans le fichier robots, je voudrais savoir quelle URL on met: Celle reecrite ou celle en dure? Ou encore les 2?

    Merci d'avance,

    David

  2. #2
    Membre Expert Avatar de RunCodePhp
    Profil pro
    Inscrit en
    Janvier 2010
    Messages
    2 962
    Détails du profil
    Informations personnelles :
    Localisation : Réunion

    Informations forums :
    Inscription : Janvier 2010
    Messages : 2 962
    Par défaut
    Salut

    Les 2 peut être, faut voir.
    Tout dépend si la réécriture est faite à 100% ou pas.
    Vu qu'on ne sait pas, on ne peu pas te répondre avec certitude.

    Faut juste comprendre que les moteurs de recherches vont suivre les liens qu'il y aura dans le code HTML des pages Web.

    Si parmi ces liens il y en a un qui doit avoir une restriction (les moteurs ne doivent pas le suivre) et que ce lien est rewrité, faut indiquer ce lien tel qu'il est : rewrité.

    Par contre, pour le même cas ci-dessus, mais cette fois ce n'est pas un lien rewrité, faudra alors indiquer ce lien tel qu'il est aussi : non rewrité

    Certain sites Web permettent même de lancer une requête HTTP d'une même page (même contenu) aussi bien rewrité que "en dur" (comme tu dis).
    Si dans tel cas il faut mettre une restriction sur cette page, il faudra alors indiquer les 2 URLs possibles : rewritée et non rewritée.


    C'est aussi simple que ça.
    Faudrait donc faire un état des lieux de tous tes liens permettant de naviguer sur ton site Web, plus particulièrement celles qui seront dans ce robot.txt.


    A savoir que parait-il (à confirmer donc) que les robots ne respecteraient pas vraiment (voire pas du tout) les indications du robot.txt.
    Dans tel cas cela suppose de devoir faire autrement.

    Sauf erreur

  3. #3
    Membre confirmé
    Homme Profil pro
    Webmaster
    Inscrit en
    Juin 2010
    Messages
    221
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cambodge

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Juin 2010
    Messages : 221
    Par défaut
    Merci de ta reponse qui est tres riches en infos !

    Alors j'ai encore d'autres questions...

    Pour commencer, voici mes regles de reecriture:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    RewriteRule ^(en|fr|kh)/(.*)/(.*)$ index.php?section=$2&url=$3&lang=$1 [L]
    RewriteRule ^(en|fr|kh)/(.*)$ index.php?url=$2&lang=$1 [L]
    RewriteRule ^mobile$ mobile.php [L]
    Ma premiere question est la suivante:

    Suite a une de mes regles d'ecriture, si un p'tit malin rentre l'url ci-dessous, il pourra acceder a la page. Comment faire pour le rediriger sur l'url reecrite?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    index.php?section=contact&url=contacter-hotel&lang=fr
    Donc RunCodePhp si je comprends ton message precedent, si je veux bloquer dans le robot la page prise en exemple je dois faire ceci?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    Disallow:/index.php?section=contact&url=contacter-hotel&lang=fr
    Disallow:/fr/contact/hotel
    C'est surtout une reponse a ma premiere question qui me donnera la reponse a la deuxieme.

    je suis desole des fautes mais au Cambodge pas de clavier AZERTY...

    Merci d'avance,
    David

  4. #4
    Membre Expert Avatar de RunCodePhp
    Profil pro
    Inscrit en
    Janvier 2010
    Messages
    2 962
    Détails du profil
    Informations personnelles :
    Localisation : Réunion

    Informations forums :
    Inscription : Janvier 2010
    Messages : 2 962
    Par défaut
    Suite a une de mes regles d'ecriture, si un p'tit malin rentre l'url ci-dessous, il pourra acceder a la page. Comment faire pour le rediriger sur l'url reecrite?
    A mon sens tu fais erreur.
    En aucun cas le robot.txt va pouvoir gérer le cas de figure que tu évoque.
    En aucun cas un robot.txt est un mécanisme de sécurité, car à mon sens c'est de cela que tu rechercherais à faire.

    Un robot.txt n'est qu'un banal fichier juste pour les robots (comme son nom l'indique: google, yahoo, etc ...).
    Encore faut il que les robots en question veulent bien rechercher ce fichier pour après en tenir compte lorsqu'ils suivront lien par lien.
    C'est pas loin d'être un pis-aller.

    Le "petit-malin" que tu évoque peu largement être une personne humaine, ce dernier s'en fichera comme de l'an 40 du robot.txt


    Tu as certaines règles de réécritures.
    C'est très simple (à la base) :
    - Si l'URL (la requête HTTP) est conforme à ce que tu attends -> tu fourni le contenu demandé

    - Si elle n'est pas conforme -> tu ne fourni pas le contenu
    Cependant, ici on fera en sorte de fournir un autre contenu, soit par défaut, soit autre, tout dépendra de l'erreur détectée.


    Si dans tes règles de gestions (c'est toi qui décide), tu estime que seule des URLs réécrites sont conforment, et bien si ce n'est pas le cas, renvoie une page de type 404.
    En somme, le contenu demandé n'existe pas (URL pas conforme), cela correspond justement à une erreur de type 404.
    Pour info, regarde du coté des différents type de code HTTP (des status en faite) : 404, 500, 501, 302, etc, etc ...

    Vouloir accepter les 2 types d'URLs complique considérablement les règles de réécriture.
    Pour exemple, de mon coté je procède ainsi (pas d'URLs non rewritées). En somme, les liens sur le site c'est pas fait pour les chiens


    Si tu souhaites bloquer l'accès d'une page (ou d'un ensemble), il faudrait plutôt t'orienter sur un système d'authentification (login/passe).
    Un moteur de recherche tout comme un "petit malin" ne pourra pas passer outre (du moins on va sérieusement leur mettre des bâtons dans les roues).


    Bref ...
    Encore une fois, un robot.txt c'est du vent, plus particulièrement dans ton cas.
    Puis un robot.txt c'est essentiellement fait pour les robots/moteurs de recherche.
    Si tes liens sont rewritées, il faut mettre ceux là.
    Les moteurs ne vont pas devinées ce qui se cacherait derrière la réécriture, seule des personnes peuvent en déduire ce genre de choses.

  5. #5
    Membre confirmé
    Homme Profil pro
    Webmaster
    Inscrit en
    Juin 2010
    Messages
    221
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cambodge

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Juin 2010
    Messages : 221
    Par défaut
    merci de tes conseils,

    En fait toutes les url sont reecrite.
    J ai fait cette condition :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    if($_GET["section"] && $_GET["lang"] && $_GET["section"] != TXT_PROJECT){
        $sql_rewrite = mysql_query("SELECT * FROM menu WHERE section='".$_GET["section"]."' AND lang='".$_GET["lang"]."'");
        $row_rewrite = mysql_fetch_array($sql_rewrite);   
        header("Location: ".$website_adr.$row_rewrite["lang"]."/".$row_rewrite["url"]."");
    }
    Cela bloque l'url en dur et je vais mettre l'url reeccrite a bloquer dans le robot.

    Qu'en penses tu?

  6. #6
    Membre Expert Avatar de RunCodePhp
    Profil pro
    Inscrit en
    Janvier 2010
    Messages
    2 962
    Détails du profil
    Informations personnelles :
    Localisation : Réunion

    Informations forums :
    Inscription : Janvier 2010
    Messages : 2 962
    Par défaut
    Qu'en penses tu?
    Du temps perdu et du code inutile.

    De plus, c'est un manque de sécurité qui justifie en partie d'exploiter la réécriture d'URL.

    En procédant ainsi, tu ne fais que donner certaines indications à un éventuel pirate.
    En somme, il saura que pour une URL réécrite, les noms des paramètres seront :
    section, url et lang
    La réécriture masque ces d'informations, faut le savoir.


    De plus, c'est doublement absurde de le faire pour que le robot.txt ne se base que sur 1 seul type d'URL.
    Je l'ai déjà dit plusieurs fois : le robto.txt c'est uniquement fait pour les robots/moteurs de recherches.
    Si tous les liens sont rewrités, il n'y a pas lieu d'en s'enquiquiner avec ça.
    Pour la simple raison que les robots ne suivront jamais une URL non réécrite (vu qu'il n'y aura pas, d'où l'absurdité).


    Bref ... tu te prends la tête pour rien.
    Pire, tu diminues la sécurité faite grâce à la réécriture.
    Tu tombes dans le piège à mon sens

  7. #7
    Membre actif
    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    102
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 102
    Par défaut
    Bonjour,
    Comme expliqué au-dessus, le htaccess et le fichier "robots" ont deux utilisations bien distinctes surtout dans votre cas !
    Le htaccess doit posséder vos nouvelles et anciennes urls.
    Tandis que le fichier "robots" permet d'interdire des indexation d'ordre général. Ceux sont des instructions aux robots mais il est déjà arrivé que google ne respecte pas le fichier.

Discussions similaires

  1. Réponses: 3
    Dernier message: 11/01/2012, 06h49
  2. Rewriting d'URL ou fichier Robots ?
    Par Manuxy dans le forum Langage
    Réponses: 2
    Dernier message: 02/02/2011, 13h12
  3. Url Rewriting et robots.txt
    Par GarGamel55 dans le forum Référencement
    Réponses: 2
    Dernier message: 26/11/2008, 13h27
  4. [Débutant]infos ds session sans cookie ? url rewriting ?
    Par Satanas_et_diabolo dans le forum ASP
    Réponses: 8
    Dernier message: 10/10/2006, 17h13
  5. Url Rewriting / htaccess
    Par bisi dans le forum Apache
    Réponses: 4
    Dernier message: 25/07/2004, 22h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo