Perplexity rejette les accusations de Cloudflare concernant le scraping furtif par l'IA

Version imprimable

01/07/2025, 16h33
Anthony

7 pièce(s) jointe(s)

Perplexity rejette les accusations de Cloudflare concernant le scraping furtif par l'IA
Cloudflare bloquera par défaut l'accès des robots d'indexation d'IA aux pages web et lance « Pay Per Crawl », une nouvelle initiative visant à faire payer les services d'IA pour accéder à ces pages

Cloudflare bloquera par défaut l'accès des robots d'indexation d'intelligence artificielle (IA) aux pages web, tout en offrant aux propriétaires de sites des options plus granulaires pour contrôler le type de robots d'IA qui indexent leurs pages. De plus, Cloudflare a lancé une nouvelle initiative visant à faire payer les services d'IA pour accéder à ces pages, appelée "Pay Per Crawl".

L'initiative voit le jour peu de temps après que le PDG de Cloudflare a qualifié l'IA de fardeau économique. S'exprimant lors d'une récente conférence abordant l'impact fondamental de l'IA sur les modèles d'entreprise en ligne, Matthew Prince a avertit que l'IA brise le modèle économique du web en découplant la création de contenu de la valeur et en fournissant des réponses sans générer de trafic vers les sources originales. Il a notamment décrit Google, le géant de la recherche en ligne, comme étant au cœur de la perturbation.

Pour rappel, Cloudflare est utilisé par environ 20 % de l'ensemble de l'Internet, ce qui peut poser un sérieux problème pour les services d'IA qui s'entraînent sur la base du web ouvert car 20 % de tout ce contenu peut tout simplement disparaître pour ces services d'IA. Cloudflare est un réseau de diffusion de contenu important, mais il offre également des services de cybersécurité, d'atténuation des attaques DDoS, de réseau étendu, de proxys inversés et bien plus encore.

Blocage des robots d'IA. L'annonce par Cloudflare de son intention de bloquer par défaut les robots d'IA et les crawlers est une décision importante. Tout nouveau site qui s'inscrit à Cloudflare sera automatiquement configuré par défaut pour empêcher les robots d'IA d'accéder à son contenu. « Cela va fondamentalement changer la façon dont les entreprises d'IA accèdent au contenu web à l'avenir », a écrit Cloudflare.

Contrôles de blocage granulaires. Cloudflare a déclaré avoir conclu un partenariat avec des entreprises spécialisées dans l'IA afin de vérifier l'identité et l'objectif des robots d'indexation d'IA. Plus précisément, il s'agit de déterminer si les robots d'IA effectuent une indexation à des fins de formation, de génération de contenu ou de recherche.

Cela permet aux propriétaires de sites et aux créateurs de contenu de définir un contrôle plus granulaire sur les robots qu'ils souhaitent autoriser et ceux qu'ils souhaitent interdire.

Pay Per Crawl. Cloudflare a également annoncé une nouvelle initiative de rémunération visant à mettre au point une méthode permettant aux entreprises d'IA de payer pour explorer votre contenu, appelée Pay Per Crawl. À l'avenir, les entreprises d'IA pourraient également être en mesure de prévisualiser le contenu, de voir quand il a été mis à jour afin de rassembler le contenu le plus pertinent pour leurs besoins particuliers, et même d'y accéder dans un format optimisé pour les machines, a déclaré l'entreprise.

Cette initiative, actuellement en version bêta privée, offrira aux créateurs de contenu et aux propriétaires de sites une nouvelle source de revenus, et aux entreprises spécialisées dans l'IA un moyen simple et efficace de trouver et d'accéder au contenu dont elles ont besoin.

Les tarifs seront déterminés à la fois par les éditeurs, qui peuvent fixer les prix, et par les entreprises d'IA, qui peuvent choisir d'accéder ou non aux pages web à ces tarifs, a déclaré la société.

ADWEEK, Atlas Obscura, BuzzFeed, Fortune, Stack Overflow, News/Media Alliance, The Atlantic, Battelle Media, Evolve Media, Hyperscience, IAB Tech Lab, O'Reilly Media, Quora, Raptive, Sovrn, Inc, figurent parmi quelques-uns des éditeurs qui ont déjà adopté cette initiative.

https://youtu.be/H5C9EL3C82Y

« L'IA va fondamentalement changer le modèle économique du web. Depuis 15 ans, le modèle économique du web repose sur la recherche... La recherche est le moteur de tout ce qui se passe en ligne. », a déclaré Matthew Prince, cofondateur et PDG de Cloudflare.

« Si Internet veut survivre à l'ère de l'IA, nous devons donner aux éditeurs le contrôle qu'ils méritent et construire un nouveau modèle économique qui fonctionne pour tout le monde : les créateurs, les consommateurs, les fondateurs de l'IA de demain et l'avenir du Web lui-même », a rajouté Matthew Prince. « Le contenu original est ce qui fait d'Internet l'une des plus grandes inventions du siècle dernier, et nous devons nous unir pour le protéger. Les robots d'indexation IA ont récupéré du contenu sans aucune limite. Notre objectif est de redonner le pouvoir aux créateurs, tout en continuant à aider les entreprises d'IA à innover. Il s'agit de préserver l'avenir d'un Internet libre et dynamique grâce à un nouveau modèle qui fonctionne pour tout le monde. »

« En tant que plus grand éditeur du pays, regroupant USA TODAY et plus de 200 publications locales à travers le réseau USA TODAY Network, il est essentiel de bloquer le scraping non autorisé et l'utilisation de notre contenu original sans compensation équitable », a déclaré Renn Turiano, directeur de la consommation et des produits chez Gannett Media. « Alors que notre secteur est confronté à ces défis, nous sommes optimistes quant au fait que la technologie Cloudflare contribuera à lutter contre le vol de propriété intellectuelle précieuse. »

« Nous félicitons Cloudflare pour son engagement en faveur d'un écosystème numérique durable qui profite à toutes les parties prenantes : les consommateurs qui s'appuient sur des informations fiables, les éditeurs qui investissent dans leur création et les annonceurs qui soutiennent leur diffusion », a déclaré Vivek Shah, PDG de Ziff Davis.

Il n'a pas été facile d'empêcher les robots d'indexation d'IA d'utiliser le contenu des créateurs sans autorisation. De nombreux services ne respectent pas pleinement les règles du fichier robots.txt, d'autres ont créé d'autres méthodes pour contrôler l'indexation que les systèmes de gestion de contenu n'ont pas entièrement adoptées, et certains (comme Google) regroupent des fonctionnalités telles que les aperçus d'IA et le mode IA dans le cadre de la recherche.

L'initiative de Cloudflare devrait non seulement permettre aux éditeurs et aux propriétaires de sites de mieux contrôler les robots d'indexation d'IA, mais aussi inciter ces entreprises d'IA à trouver de meilleurs moyens de rémunérer les créateurs de contenu pour l'utilisation future de leur contenu.

Un paysage de consommation en pleine mutation

De nombreux éditeurs, créateurs de contenu et propriétaires de sites web ont actuellement l'impression d'avoir un choix binaire : soit laisser la porte grande ouverte à l'IA pour qu'elle consomme tout ce qu'ils créent, soit créer leur propre jardin clos. Mais s'il existait une autre solution ?

Cloudflare est parti d'un principe simple : il voulait que les créateurs de contenu propriétaires de sites web puissent contrôler qui accède à leur travail. Si un créateur souhaite bloquer tous les robots d'indexation d'IA de son contenu, il doit pouvoir le faire. Si un créateur ou un propriétaire de site souhaite autoriser certains ou tous les robots d'indexation d'IA à accéder gratuitement à l'intégralité de son contenu, il doit également pouvoir le faire. Selon Cloudflare, les créateurs doivent être aux commandes.

Après des centaines de conversations avec des organes de presse, des éditeurs et des plateformes de réseaux sociaux à grande échelle, Cloudflare a constaté un désir constant pour une troisième voie : ils aimeraient permettre aux robots d'indexation d'IA d'accéder à leur contenu, mais ils aimeraient être rémunérés en échange. Actuellement, cela nécessite de connaître la bonne personne et de conclure un accord ponctuel, ce qui représente un défi insurmontable si l'on ne dispose pas de l'échelle et de l'influence nécessaires.

Et si l'on pouvait facturer un robot d'indexation ?

Cloudflare estime que le choix ne doit pas nécessairement être binaire : « il devrait exister une troisième option, plus nuancée, à savoir facturer l'accès ». Au lieu d'un blocage général ou d'un accès libre non rémunéré, Cloudflare souhaite donc donner aux propriétaires de contenu les moyens de monétiser leur contenu à l'échelle d'Internet.

« Nous sommes ravis de contribuer à dépoussiérer un élément du Web largement oublié : le code de réponse HTTP 402 », a déclaré Cloudflare.

Présentation de Pay per Crawl

Pay per Crawl, actuellement en version bêta privée, est la première expérience de Cloudflare dans ce domaine. Pay per Crawl s'intègre à l'infrastructure web existante, en tirant parti des codes d'état HTTP et des mécanismes d'authentification établis pour créer un cadre permettant l'accès à des contenus payants.

Selon Cloudflare, chaque fois qu'un robot d'indexation d'IA demande du contenu, il présente soit son intention de paiement via des en-têtes de requête pour un accès réussi (code de réponse HTTP 200), soit il reçoit une réponse 402 Payment Required avec le prix. Cloudflare agit alors en tant que commerçant attitré pour le Pay per Crawl et fournit également l'infrastructure technique sous-jacente.

Contrôles et tarification par les éditeurs

Pay per Crawl offre aux propriétaires de domaines un contrôle total sur leur stratégie de monétisation. Ils peuvent définir un prix forfaitaire par requête pour l'ensemble de leur site. Les éditeurs disposent alors de trois options distinctes pour les robots d'indexation :
- Autoriser : accorder au robot d'indexation un accès gratuit au contenu.
- Facturer : exiger un paiement au prix configuré pour l'ensemble du domaine.
- Bloquer : refuser tout accès, sans option de paiement.
Pièce jointe 668485

Un mécanisme important ici est que même si un robot d'indexation n'a pas de relation commerciale avec Cloudflare, et ne peut donc pas être facturé pour l'accès, un éditeur peut toujours choisir de lui « facturer » l'accès. Cela équivaut fonctionnellement à un blocage au niveau du réseau (une réponse HTTP 403 Forbidden où aucun contenu n'est renvoyé), mais avec l'avantage supplémentaire d'indiquer au robot d'indexation qu'une relation pourrait être établie à l'avenir.

Bien que les éditeurs puissent actuellement définir un prix forfaitaire pour l'ensemble de leur site, ils conservent la possibilité de contourner les frais pour certains crawlers spécifiques si nécessaire. Cela est particulièrement utile si un créateur ou un propriétaire de site souhaite autoriser gratuitement l'accès à un certain crawler ou si il souhaite négocier et conclure un partenariat de contenu en dehors de la fonctionnalité Pay per Crawl.

Pour garantir l'intégration avec la politique de sécurité existante de chaque éditeur, Cloudflare applique les décisions « Autoriser » ou « Facturer » via un moteur de règles qui ne fonctionne qu'après l'application des politiques WAF existantes et des fonctionnalités de gestion ou de blocage des bots.

Pièce jointe 668487

En-têtes de paiement et accès

Lorsque Cloudflare a développé le système, l'entreprise savait qu'elle devait relever un défi technique extrêmement important : garantir la facturation d'un robot d'indexation spécifique, tout en empêchant quiconque d'usurper l'identité de ce robot. Heureusement, il existe un moyen d'y parvenir grâce aux propositions Web Bot Auth.

Pour les robots d'indexation, cela implique de :
- Générer une paire de clés Ed25519 et de rendre la clé publique au format JWK disponible dans un répertoire hébergé
- S'inscrire auprès de Cloudflare pour fournir l'URL de votre répertoire de clés et les informations relatives à l'agent utilisateur.
- Configurer votre robot d'indexation pour qu'il utilise les signatures de messages HTTP avec chaque requête.
Une fois l'enregistrement accepté, les requêtes du robot d'indexation doivent toujours inclure les en-têtes signature-agent, signature-input et signature afin d'identifier votre robot d'indexation et de découvrir les ressources payantes.

Pièce jointe 668488

Accès au contenu payant

Une fois le robot d'indexation configuré, deux processus permettent de déterminer si le contenu est payant :

Réactif (priorité à la découverte) : Si un robot d'indexation demande une URL payante, Cloudflare renvoie une réponse HTTP 402 Payment Required, accompagnée d'un en-tête crawler-price. Cela indique que le paiement est requis pour la ressource demandée.

Pièce jointe 668489

Le robot d'indexation peut alors décider de réessayer la requête, en incluant cette fois-ci un en-tête crawler-exact-price pour indiquer son accord à payer le prix configuré.

Pièce jointe 668490

Proactif (priorité à l'intention) : Une autre solution consiste pour le robot d'indexation à inclure de manière préventive un en-tête crawler-max-price dans sa requête initiale.

Pièce jointe 668491

Si le prix configuré pour une ressource est égal ou inférieur à cette limite spécifiée, la requête est traitée et le contenu est fourni avec une réponse HTTP 200 OK réussie, confirmant la facturation :

Pièce jointe 668492

Si le montant indiqué dans une requête crawler-max-price est supérieur au prix configuré par le propriétaire du contenu, seul le prix configuré est facturé. Cependant, si le prix configuré de la ressource dépasse le prix maximum proposé par le robot d'indexation, une réponse HTTP 402 Payment Required est renvoyée, indiquant le coût spécifié. Un seul en-tête de déclaration de prix, crawler-exact-price ou crawler-max-price, peut être utilisé par requête.

Les en-têtes crawler-exact-price ou crawler-max-price déclarent explicitement la volonté du robot d'exploration de payer. Si tous les contrôles sont réussis, le contenu est servi et l'événement d'exploration est consigné. Si un aspect quelconque de la requête n'est pas valide, le périphérique renvoie une réponse HTTP 402 Payment Required.

Règlement financier

Selon Cloudflare, les opérateurs de robots d'indexation et les propriétaires de contenu doivent configurer les détails du paiement « Pay per Crawl » dans leur compte Cloudflare. Les événements de facturation sont enregistrés chaque fois qu'un robot d'indexation effectue une requête authentifiée avec intention de paiement et reçoit une réponse HTTP 200-level avec un en-tête crawler-charged. Cloudflare agrège ensuite tous les événements, facture le robot d'indexation et distribue les gains à l'éditeur.

Du contenu pour les robots d'indexation aujourd'hui, pour les agents demain

Fondamentalement, le « Pay per Crawl » marque le début d'un changement technique dans la manière dont le contenu est contrôlé en ligne. En fournissant aux créateurs un mécanisme programmatique robuste pour évaluer et contrôler leurs actifs numériques, Cloudflare leur donne les moyens de continuer à créer le contenu riche et diversifié qui rend Internet si précieux.

Cloudflare s'attend à ce que le « Pay per Crawl » évolue de manière significative. « Il est encore très tôt : nous pensons que de nombreux types d'interactions et de marchés peuvent et doivent se développer simultanément. Nous sommes ravis de soutenir ces différents efforts et ces normes ouvertes. »

Parmi ces interactions, Cloudflare évoque l'exemple où un éditeur ou une nouvelle organisation pourrait vouloir facturer des tarifs différents selon les chemins d'accès ou les types de contenu. Le fournisseur de service soulève ainsi plusieurs défis, notamment comment introduire une tarification dynamique basée non seulement sur la demande, mais aussi sur le nombre d'utilisateurs de votre application d'IA ? Comment introduire des licences granulaires à l'échelle d'Internet, que ce soit pour la formation, l'inférence, la recherche ou quelque chose d'entièrement nouveau ?

Cloudflare estime que le véritable potentiel du « Pay per Crawl » pourrait émerger dans un monde agentique. « Et si un paywall agentique pouvait fonctionner entièrement de manière programmatique ? Imaginez que vous demandiez à votre programme de recherche approfondie préféré de vous aider à synthétiser les dernières recherches sur le cancer ou un mémoire juridique, ou simplement de vous aider à trouver le meilleur restaurant de Soho, puis que vous donniez à cet agent un budget à dépenser pour acquérir le contenu le meilleur et le plus pertinent. En ancrant notre première solution sur le code de réponse HTTP 402, nous ouvrons la voie à un avenir où des agents intelligents pourront négocier de manière programmatique l'accès aux ressources numériques. », déclare Cloudflare.

Source : Cloudflare

Et vous ?

:fleche: Quel est votre avis sur le sujet ?
:fleche: Trouvez-vous cette initiative de Cloudflare crédible ou pertinente ?

Voir aussi :

:fleche: Cloudflare lance une nouvelle fonctionnalité pour bloquer les entreprises d'IA et les bots de scraping Web : "Déclarez votre AIndépendance : bloquez les bots d'IA, les scrapers et les crawlers en un seul clic"

:fleche: Cloudflare lance une place de marché pour permettre aux développeurs de facturer les robots d'IA pour le scraping de leurs sites web et propose des outils pour bloquer les bots d'IA en un seul clic
04/07/2025, 08h53
nico5.02

Comment savoir ce qu'on crawle ?

Donner le prix avant de voir la page, est-ce que ce n'est pas acheter un chat dans un sac ?
05/08/2025, 09h12
Alex

6 pièce(s) jointe(s)

Perplexity utilise des robots d'indexation furtifs et non déclarés pour contourner les directives des sites
La start-up spécialisée dans l'IA Perplexity déploie des robots d'indexation non déclarés qui se font passer pour des navigateurs Chrome classiques afin de contourner le bloquage des sites web.

L'équipe de Cloudflare a révélé un comportement de crawling furtif de la part de Perplexity. Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur déclaré, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling afin de contourner les préférences du site web. Selon Cloudflare, Perplexity modifie à plusieurs reprises et de de manière continue son agent utilisateur et change ses ASN sources afin de dissimuler son activité de crawling, tout en ignorant, voire en omettant parfois de récupérer, les fichiers robots.txt.

En juillet, Cloudflare a annoncé bloquer par défaut l'accès des robots d'indexation d'intelligence artificielle (IA) aux pages web, tout en offrant aux propriétaires de sites des options plus granulaires pour contrôler le type de robots d'IA qui indexent leurs pages. De plus, Cloudflare a lancé une nouvelle initiative visant à faire payer les services d'IA pour accéder à ces pages, appelée "Pay Per Crawl".

Matthew Prince, cofondateur et PDG de Cloudflare, avait commenté : "L'IA va fondamentalement changer le modèle économique du web. Depuis 15 ans, le modèle économique du web repose sur la recherche... La recherche est le moteur de tout ce qui se passe en ligne. Si Internet veut survivre à l'ère de l'IA, nous devons donner aux éditeurs le contrôle qu'ils méritent et construire un nouveau modèle économique qui fonctionne pour tout le monde : les créateurs, les consommateurs, les fondateurs de l'IA de demain et l'avenir du Web lui-même".

Avec cette vision, Cloudflare surveille et partage ses découvertes concernant ces robots d'indexation d'IA. Récemment, l'équipe de Cloudflare a révélé un comportement de crawling furtif de la part de Perplexity. Perplexity AI, ou simplement Perplexity, est une société privée de logiciels basée à San Francisco qui propose un moteur de recherche web qui traite les requêtes des utilisateurs et synthétise les réponses.

Perplexity AI utilise de grands modèles de langage et intègre des capacités de recherche Web en temps réel, ce qui lui permet de fournir des réponses basées sur le contenu actuel d'Internet. Grâce à une approche conversationnelle, Perplexity permet aux utilisateurs de poser des questions complémentaires et d'obtenir des réponses contextuelles. Toutes les réponses incluent des citations de leurs sources sur Internet afin de garantir la transparence et de permettre aux utilisateurs de vérifier les informations.

Pièce jointe 669232

Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur déclaré, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling afin de contourner les préférences du site web. Selon Cloudflare, Perplexity modifie à plusieurs reprises et de de manière continue son agent utilisateur et change ses ASN sources afin de dissimuler son activité de crawling, tout en ignorant, voire en omettant parfois de récupérer, les fichiers robots.txt.

L'Internet tel que nous le connaissons depuis trois décennies évolue rapidement, mais une chose reste constante : il repose sur la confiance. Il existe des préférences claires selon lesquelles les robots d'exploration doivent être transparents, servir un objectif clair, effectuer une activité spécifique et, surtout, respecter les directives et les préférences des sites web. Sur la base du comportement observé de Perplexity, qui est incompatible avec ces préférences, Cloudflare l'a retiré de la liste des robots vérifiés et a ajouté des heuristiques à ces règles gérées qui bloquent cette exploration furtive.

Voici comment l'équipe de Cloudflare a constaté ce comportement :

Citation:

Comment nous avons procédé

Nous avons reçu des plaintes de clients qui avaient à la fois interdit l'activité de crawling de Perplexity dans leurs fichiers robots.txt et créé des règles WAF pour bloquer spécifiquement les deux crawlers déclarés par Perplexity : PerplexityBot et Perplexity-User. Ces clients nous ont indiqué que Perplexity était toujours en mesure d'accéder à leur contenu, même lorsqu'ils voyaient que ses bots étaient bloqués avec succès. Nous avons confirmé que les robots d'exploration de Perplexity étaient effectivement bloqués sur les pages spécifiques en question, puis nous avons effectué plusieurs tests ciblés pour confirmer le comportement exact que nous pouvions observer.

Nous avons créé plusieurs nouveaux domaines, similaires à testexample.com et secretexample.com. Ces domaines avaient été récemment achetés et n'avaient encore été indexés par aucun moteur de recherche ni rendus accessibles au public de manière identifiable. Nous avons mis en place un fichier robots.txt contenant des directives visant à empêcher tout robot respectueux d'accéder à une partie quelconque d'un site web :

Pièce jointe 669233

Nous avons mené une expérience en interrogeant Perplexity AI sur ces domaines et avons découvert que Perplexity fournissait toujours des informations détaillées sur le contenu exact hébergé sur chacun de ces domaines restreints. Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour empêcher leurs robots d'indexation d'accéder à ces données.

Pièce jointe 669234

Pièce jointe 669235

Comportement d'obfuscation observé

Les multiples domaines de test interdisaient explicitement tout accès automatisé en le spécifiant dans robots.txt et disposaient de règles WAF spécifiques qui bloquaient l'exploration par les robots d'exploration publics de Perplexity. Selon Cloudflare, Perplexity utilise non seulement son agent utilisateur déclaré, mais aussi un navigateur générique destiné à imiter Google Chrome sur macOS lorsque son robot d'indexation déclaré était bloqué.

Pièce jointe 669236

Leurs robots d'indexation déclarés et non déclarés tentaient d'accéder au contenu à des fins de scraping, contrairement aux normes d'indexation web décrites dans la RFC 9309.

Ce robot d'indexation non déclaré utilisait plusieurs adresses IP ne figurant pas dans la plage d'adresses IP officielle de Perplexity, et alternait entre ces adresses IP en réponse à la politique restrictive du fichier robots.txt et au blocage de Cloudflare. En plus de l'alternance des adresses IP, Cloudflare a observé des requêtes provenant de différents ASN dans le but de contourner davantage les blocages de sites web. Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour. Ce robot d'indexation a été identifié en combinant l'apprentissage automatique et les signaux réseau.

Pièce jointe 669237

Lorsque le robot d'indexation furtif a été bloqué avec succès, Perplexity utilise d'autres sources de données, y compris d'autres sites web, pour tenter de créer une réponse. Cependant, ces réponses étaient moins précises et manquaient de détails par rapport au contenu original, ce qui reflète le fait que le blocage avait été efficace.

Comment les opérateurs de robots bien intentionnés respectent les préférences des sites web

Contrairement au comportement décrit ci-dessus, Internet a exprimé des préférences claires sur la manière dont les bons robots d'indexation doivent se comporter. Tous les robots d'indexation bien intentionnés agissant de bonne foi doivent :
- Être transparents. S'identifier honnêtement, en utilisant un agent utilisateur unique, une liste déclarée de plages d'adresses IP ou l'intégration Web Bot Auth, et fournir des coordonnées en cas de problème.
- Être des internautes bien élevés. Ne pas inonder les sites de trafic excessif, ne pas récupérer de données sensibles et ne pas utiliser de tactiques furtives pour tenter d'échapper à la détection.
- Avoir un objectif clair. Qu'il s'agisse d'alimenter un assistant vocal, de vérifier les prix des produits ou de rendre un site Web plus accessible, chaque bot a une raison d'être. L'objectif doit être clairement et précisément défini et facile à consulter publiquement pour les propriétaires de sites.
- Séparez les bots pour les différentes activités. Effectuez chaque activité à partir d'un bot unique. Cela permet aux propriétaires de sites de décider facilement quelles activités ils souhaitent autoriser. Ne forcez pas les propriétaires de sites à prendre une décision radicale.
- Respectez les règles. Cela signifie vérifier et respecter les signaux du site web tels que robots.txt, respecter les limites de fréquence et ne jamais contourner les protections de sécurité.
Cloudflare commente dans son rapport :

Citation:

OpenAI est un exemple d'entreprise leader dans le domaine de l'IA qui suit ces bonnes pratiques. Elle décrit clairement ses robots d'indexation et fournit des explications détaillées sur l'objectif de chacun d'entre eux. Elle respecte le fichier robots.txt et n'essaie pas de contourner les directives robots.txt ou les blocages au niveau du réseau. De plus, ChatGPT Agent signe les requêtes http à l'aide de la nouvelle norme ouverte Web Bot Auth.

Lorsque nous avons effectué le même test que celui décrit ci-dessus avec ChatGPT, nous avons constaté que ChatGPT-User récupérait le fichier robots et cessait le crawling lorsqu'il était interdit. Nous n'avons observé aucun crawling supplémentaire de la part d'autres agents utilisateurs ou bots tiers. Lorsque nous avons supprimé la directive d'interdiction de l'entrée robots, mais présenté une page de blocage à ChatGPT, celui-ci a de nouveau cessé le crawling et nous n'avons constaté aucune tentative de crawling supplémentaire de la part d'autres agents utilisateurs. Ces deux exemples illustrent la réponse appropriée aux préférences des propriétaires de sites web.

Comment pouvez-vous vous protéger ?

Toutes les activités d'exploration non déclarées observées à partir de l'agent utilisateur caché de Perplexity ont été classées par le système de gestion des bots de Cloudflare comme des bots et n'ont pas pu passer les défis gérés. Tout client de gestion des bots qui a mis en place une règle de blocage existante est déjà protégé. Les clients qui ne souhaitent pas bloquer le trafic peuvent configurer des règles pour contester les demandes, donnant ainsi aux vrais humains la possibilité de continuer. Les clients qui ont déjà mis en place des règles de contestation sont déjà protégés.

Cloudflare a également ajouté des correspondances de signatures pour le robot d'exploration furtif dans sa règle gérée qui bloque l'activité d'exploration de l'IA. Cette règle est disponible pour tous ses clients, y compris ses clients gratuits. En outre, Cloudflare affirme travailler activement avec des experts techniques et politiques du monde entier, comme l'IETF qui s'efforce de normaliser les extensions de robots.txt, afin d'établir des principes clairs et mesurables que les opérateurs de bots bien intentionnés devraient respecter.

Cette position de Cloudflare concernant les crawler IA a déjà été évoquée par son PDG en mai 2025. Matthew Prince a notamment déclaré lors d'une conférence abordant l'impact fondamental de l'IA sur les modèles d'entreprise en ligne : "L'échange de valeur entre Google et les créateurs de contenu ne cesse de se détériorer. Il y a près de dix ans, lorsque Google scrapait toutes les deux pages, il envoyait un visiteur aux sites web. Ce système pouvait être considéré comme un échange, mais aujourd'hui, il faudrait six pages pour qu'un site web reçoive un seul visiteur."

Aujourd'hui, 75 % des questions trouvent une réponse sans que l'utilisateur ne quitte le moteur de recherche. Selon le PDG de Cloudflare, l'IA ne fait qu'empirer les choses et les grands modèles de langage viennent s'ajouter à ce problème majeur. Il faut savoir que les entreprises spécialisées dans l'IA continuent de récupérer plus de contenu pour chaque interaction avec l'utilisateur que ce que Google a fait jusqu'à présent. Le rendement pour les créateurs ne cesse donc de se détériorer. Matthew Prince a qualifié l'IA de fardeau économique, qui brise le modèle économique du web en découplant la création de contenu de la valeur.

À propos de Cloudflare

Cloudflare, le leader dans le domaine du cloud de connectivité, s'est donné pour mission de contribuer à bâtir un Internet meilleur. Cloudflare fournit aux entreprises les moyens nécessaires pour rendre leurs collaborateurs, leurs applications et leurs réseaux plus rapides et plus sûrs, partout dans le monde, tout en réduisant la complexité et les coûts. Le cloud de connectivité Cloudflare propose une plateforme unifiée complète en matière de produits et d'outils de développement cloud-native, permettant à toutes les entreprises de bénéficier des mesures de contrôle dont elles ont besoin pour travailler, développer et dynamiser leur activité.

Source : Cloudflare

Et vous ?

:fleche: Pensez-vous que ce rapport est crédible ou pertinent ?
:fleche: Quel est votre avis sur le sujet ?

Voir aussi :

:fleche: Perplexity AI, un moteur de recherche basé sur l'IA, semble mentir sur l'agent utilisateur qu'il envoie explorer les sites Web, il est dissimulé et ignore le fichier robot.txt pour extraire des informations

:fleche: Cloudflare retourne l'IA contre elle-même en déployant un labyrinthe sans fin de faits non pertinents, pour lutter contre le scraping non autorisé de données d'entraînement d'IA comme ChatGPT

:fleche: Cloudflare exige que Google modifie la façon dont ses outils IA explorent le web : « Nous obtiendrons de Google un moyen de bloquer les IA Overviews sans bloquer l'indexation de la recherche classique »
12/08/2025, 18h25
Mathis Lucas

2 pièce(s) jointe(s)

Perplexity rejette les accusations de Cloudflare concernant le scraping furtif par l'IA

Perplexity affirme que les accusations de Cloudflare concernant le scraping furtif par l'IA reposent sur des erreurs embarrassantes
ajoutant que le blocage de Cloudflare menace l’accessibilité du Web ouvert

Une récente enquête de Cloudflare a conclu que Perplexity utilise des robots d'indexation furtifs et non déclarés pour contourner les directives interdisant l'exploration des sites Web. Perplexity parvient ainsi à accéder à des contenus Web pourtant explicitement bloqués afin d'alimenter son monteur de réponses. Ce comportement enfreint les règles que de nombreux sites Web mettent en place pour limiter l’exploitation abusive et automatisée de leurs données. Mais Perplexity rejette les conclusions de l'enquête de Cloudflare. La startup d'IA affirme que les allégations Cloudflare concernant le scraping furtif reposent sur des erreurs embarrassantes.

Perplexity AI est une plateforme qui combine un moteur de recherche et un chatbot basé sur l'IA. La plateforme utilise des technologies avancées comme le traitement du langage naturel (NLP) et l'apprentissage automatique pour fournir des réponses précises et complètes aux requêtes des utilisateurs. Elle est conçue pour effectuer des recherches sur le Web en temps réel et offrir des informations actualisées sur divers sujets, au lieu d'une liste de liens.

Perplexity AI est doté d'une interface utilisateur intuitive pour aider les utilisateurs à trouver des informations sur un large éventail de sujets. Mais Perplexity fait l'objet de plusieurs critiques depuis l'année dernière, de nombreux experts ayant signalé un scraping abusif de la part de l'entreprise.

En juin 2024, le développeur Rob Knight a révélé que Perplexity ignore les instructions du fichier robots.txt et accède aux sites Web pour extraire le contenu, même lorsque les administrateurs interdisent l'accès à l'agent utilisateur de l'entreprise. Perplexity prétend que son agent utilisateur devrait apparaître sous le nom de « PerplexityBot », mais en réalité, il semble que le vrai agent utilisateur est dissimulé et parcourt les pages Web en toute discrétion.

Ces accusations se sont multipliées tout le long de la seconde moitié de l'année dernière. Forbes a accusé Perplexity d'avoir ignoré les règles des fichiers robots.txt de ses sites Web pour collecter le contenu de ses articles. Wired a également publié un rapport qui tire des conclusions similaires. De récentes accusations indiquent que Perplexity déguise ses robots d'indexation en navigateurs Chrome classiques afin de contourner le blocage des sites.

Perplexity s'appuie sur des crawlers furtifs pour accéder aux sites Web

Une récente enquête de Cloudflare a abouti à des conclusions similaires. Cloudflare a commencé son enquête après que ses clients se sont plaints du comportement de Perplexity. Ces clients ont rapporté avoir interdit à la fois « l'activité de crawling de Perplexity dans leurs fichiers de règle robots.txt et créé des règles WAF [Web Application Firewall] pour bloquer spécifiquement les deux crawlers déclarés par Perplexity : PerplexityBot et Perplexity-User ».

Pièce jointe 669419

Malgré ces dispositions, les clients de Cloudflare ont rapporté que leur contenu se retrouvait toujours dans Perplexity. Cloudflare a alors mis en place de nouveaux domaines de test, interdisant explicitement tout accès automatisé dans ses fichiers robots.txt et via des règles WAF spécifiques qui bloquaient les crawlers reconnus de Perplexity. Cloudflare a constaté que Perplexity déploie des robots d'indexation non déclarés (furtifs) pour accéder aux sites.

Perplexity utilise des adresses IP ne figurant pas dans sa plage IP officielle et les fait tourner pour accéder aux contenus et aux enregistrements des sites. « En plus de la rotation des adresses IP, nous avons observé des requêtes provenant de différents numéros de système autonome pour contourner les blocages des sites. Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour », a écrit Cloudflare.

Le résultat ? Cloudflare a rapporté avoir observé que « Perplexity avait accédé non seulement à ce type de contenu, mais était également capable de fournir des réponses détaillées à ce sujet lorsque les utilisateurs lui posaient des questions ». Ces observations confirment les plaintes des clients de Cloudflare. Le fournisseur de services d’infrastructure Web a annoncé qu'il travaille sur un système capable de bloquer le comportement de Perplexity.

Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur officiel, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling pour contourner les préférences du site. Selon les administrateurs et éditeurs de sites Web, le comportement de Perplexity représente une menace existentielle pour leur modèle économique. Perplexity affirme toutefois que Cloudflare se trompe complètement sur ses crawlers.

Perplexity remet en cause la sécurité de l'infrastructure de Cloudflare

L'Internet tel que nous le connaissons depuis trois décennies évolue rapidement, mais une chose reste constante : il repose sur la confiance. Il existe des préférences claires selon lesquelles les robots d'exploration doivent être transparents, servir un objectif clair, effectuer une activité spécifique et, surtout, respecter les directives et les préférences des sites. Ainsi, Cloudflare a ajouté des heuristiques à ces règles gérées afin de bloquer Perplexity.

Pièce jointe 669418

Toutefois, Perplexity affirme que Cloudflare se trompe. « Cette controverse révèle que les systèmes de Cloudflare sont fondamentalement inadéquats pour faire la distinction entre les assistants d'IA légitimes et les menaces réelles. Si vous ne pouvez pas distinguer un assistant numérique utile d'un scraper malveillant, vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic Web légitime », a-t-il écrit dans un billet de blogue.

Le billet de blogue de Perplexity poursuit : « les erreurs techniques dans l’analyse de Cloudflare ne sont pas seulement embarrassantes ; elles sont disqualifiantes. Lorsque vous attribuez à tort des millions de requêtes, publiez des schémas techniques complètement inexacts et démontrez une incompréhension fondamentale du fonctionnement des assistants d’IA modernes, vous perdez toute prétention à une quelconque expertise dans ce domaine ».

Citation:

Envoyé par Perplexity

Ce blocage excessif nuit à tout le monde. Imaginez quelqu’un qui utilise l’IA pour rechercher des informations médicales, comparer des avis sur des produits ou accéder à l’actualité depuis plusieurs sources. Si son assistant est bloqué comme un bot malveillant, il perd l’accès à des informations précieuses.

Le résultat, c’est un Internet à deux vitesses, où l’accès ne dépend pas de vos besoins, mais du fait que vos outils préférés aient reçu ou non l’aval des contrôleurs d’infrastructure, qui se soucieront davantage de vos moyens. Cela porte atteinte au libre choix des utilisateurs et menace l’accessibilité du Web ouvert pour les services innovants en concurrence avec les géants déjà établis.

Dans la communauté, les critiques affirment que Perplexity tente de déplacer le sujet. Perplexity dénonce une prétendue menace pour l’accessibilité du Web, alors que la question porte sur le respect des règles établies dans les fichiers robots.txt. Il s'agit d'une pratique de longue date permettant aux sites Web de contrôler l'exploration de leur contenu. Cependant, Perplexity ignore ces restrictions et collecte les informations sur les sites Web.

En substance, Perplexity semble affirmer que les restrictions du fichier robots.txt ne s'appliquent qu'à l'entraînement de grands modèles de langage, qu'il s'agisse de créer des classements de pages pour la recherche ou d'accumuler des données pour l'entraînement de modèles. Ainsi, si les informations sont utilisées immédiatement, cela ne compte pas comme de l'entraînement, et les restrictions du fichier robots.txt ne s'appliquent donc pas.

Comment Cloudflare compte bloquer le crawling furtif de Perplexity

À l'avenir, Cloudflare affirme que son système de gestion des bots sera capable de détecter et de bloquer l'agent utilisateur caché de Perplexity. Tout client utilisant un système de gestion des bots et disposant déjà d'une règle de blocage est déjà protégé. Si vous souhaitez autoriser ce trafic au motif qu'il pourrait provenir d'utilisateurs réels, vous pouvez configurer des règles pour contester les requêtes. Cela permet aux utilisateurs réels de continuer.

Cloudflare a ajouté des correspondances de signatures pour le crawler furtif à sa règle gérée, qui bloque l'activité de crawling de l'IA. Cette règle est disponible pour tous les clients Cloudflare, y compris les utilisateurs gratuits. Selon Cloudflare, OpenAI respecte les restrictions du fichier robots.txt et n'essaie pas de s'introduire dans les sites Web. Il a commencé à offrir à ses clients la possibilité de bloquer automatiquement tous les robots d'indexation IA.

Pour compléter cette mesure visant à bloquer les robots d'indexation des moteurs de réponses basés sur l'IA, Cloudflare a également lancé son programme « Pay Per Crawl », qui permet aux éditeurs de fixer des tarifs pour les entreprises d'IA qui souhaitent extraire leur contenu. Cela fait suite à plusieurs accords dans lesquels des éditeurs autorisent des entreprises d'IA à utiliser légalement leur contenu pour entraîner leurs grands modèles de langage.

Citons par exemple The New York Times avec Amazon, The Washington Post avec OpenAI et Perplexity avec Gannett Publishing. Dans le même temps, Perplexity semble continuer à enfreindre les règles dans sa quête de contenu. Perplexity rejette toutefois les conclusions des enquêtes qui l'incriminent.

Conclusion

Cloudflare accuse Perplexity d’utiliser des robots furtifs pour contourner les directives des fichiers robots.txt et accéder à des contenus Web restreints. Ce comportement enfreint les règles que de nombreux sites Web mettent en place pour limiter l’exploitation automatisée de leurs données. Toutefois, Perplexity rejette fermement les accusations de Cloudflare. La société parle « d’erreurs embarrassantes » et dénonce une analyse techniquement incompétente.

L'enquête de Cloudflare remet en cause l'activité même de Perplexity. Pour être plus claire, l'enquête de Cloudflare rapporte que l'IA de Perplexity est capable de répondre à des questions sur le contenu de pages auxquelles Perplexity n'a pas accès. Comment Perplexity explique-t-il exactement ce phénomène ?

Au-delà de cette querelle, l’affaire illustre la tension croissante entre les fournisseurs de contenu en ligne et les acteurs de l’IA générative. Elle soulève la question de savoir dans quelle mesure les robots d’IA doivent respecter les protocoles établis et comment vérifier qu’ils le font réellement. Une action collective en matière de droits d'auteur vient d'être intentée contre Anthropic et selon les experts, cette dernière pourrait bien ruiner l'industrie de l'IA.

Sources : Perplexity AI, Cloudflare

Et vous ?

:fleche: Quel est votre avis sur le sujet ?
:fleche: Perplexity affirme que les conclusion de l'enquête de Cloudflare sont erronées. Qu'en pensez-vous ?
:fleche: Perplexity estime que le blocage que de Cloudflare menace l'accessibilité du Web. Qu'en pensez-vous ?
:fleche: Quels impacts le système de blocage mis en place par Cloudflare pourrait-il avoir sur Perplexity ?

Voir aussi

:fleche: L'industrie de l'IA au bord du précipice ? La plus grande action collective en matière de droits d'auteur contre Anthropic pourrait ruiner l'industrie de l'IA, selon les associations professionnelles

:fleche: La startup spécialisée dans l'IA Perplexity déploie des robots d'indexation non déclarés qui se font passer pour des navigateurs Chrome classiques afin de contourner le blocage des sites Web

:fleche: Perplexity AI, un moteur de recherche basé sur l'IA, semble mentir sur l'agent utilisateur qu'il envoie explorer les sites Web, il est dissimulé et ignore le fichier robot.txt pour extraire des informations