Bonjour
Est t'il possible d'ajouter des regles iptables pour interdire les webcrawler du style http //cliqz.com/company/cliqzbot
Merci
pHIL
Bonjour
Est t'il possible d'ajouter des regles iptables pour interdire les webcrawler du style http //cliqz.com/company/cliqzbot
Merci
pHIL
Bonjour !
Je travaille actuellement à Cliqz (nous développons un navigateur ainsi qu'un moteur de recherche centrés sur le respect de la vie privée de nos utilisateurs) et je pense pouvoir apporter quelques éléments de réponse !
Cliqz Bot est le crawler utilisé par Cliqz. Je comprends que les crawlers puissent devenir une nuisance pour les web masters, et vous avez tout à fait le droit de les empêcher de crawler votre site. Néanmoins, je voudrais attirer votre attention sur le fait que Cliqz Bot est un crawler mature qui respecte le robot.txt et essayer d'appliquer les règles de politesse de base (nous limitons le nombre de requêtes effectuées simultanément sur un domaine donné afin de ne pas avoir d'impact négatif) !
Les données récoltées par le crawling sont utilisées afin de construire un moteur de recherche alternatif. L'objectif final étant de permettre aux utilisateurs de découvrir du nouveau contenu (en l'occurrence, votre site internet).
Si vous souhaitez toujours bloquer Cliqz, il vous suffit d'ajouter les règles suivantes dans votre robot.txt:
Si CliqzBot vous cause un souci quelconque, ou si vous voulez directement entrer en contact avec Cliqz, n'hésitez surtout pas à nous joindre. Soit en répondant directement à ce message, soit en nous contactant à cliqzbot@cliqz.com.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2User-agent: Cliqzbot Disallow: /
Cordialement,
Rémi & l'équipe CliqzBot !
Bonjour
USER AGENT :*
Disallow: /
et regles iptables sur vos deux plages IP
Re-bonjour pcouas,
Il semble que "USER AGENT" ne soit pas la manière standard de spécifier les user agents à bloquer. Il manque un tiret entre "user" et "agent" (documentation complète à trouver par ici : https://developers.google.com/webmas...s/robots_txt):
Cordialement,Handling of <field> elements with simple errors / typos (eg "useragent" instead of "user-agent") is undefined and may be interpreted as correct directives by some user-agents.
Bonjour,
Est ce que ceci pourrait vous aider ?
Ip cible:
35.187.22.222
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 iptables -I INPUT -s IP_ADRESS -p tcp --dport 80,443 -j DROP
bonjour
Mais cela ne va t'il pas empcher les connexion web sur mon site perso ?
Les adresses IP source (`-s', `--source' ou `--src') et destination (`-d', `--destination' ou `--dst') peuvent être spécifiées
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager