Cloudflare lance une place de marché pour permettre aux sites web de facturer les robots d'IA pour le scraping,
et propose des outils pour bloquer les bots d'IA en un seul clic

Cloudflare a annoncé lundi de nouveaux outils qui, selon elle, aideront à mettre fin à l'ère du scraping IA sans fin en donnant à tous les sites de son réseau le pouvoir de bloquer les bots en un seul clic. L'un des objectifs est de mettre un terme à l'avalanche de collecte de données d'IA sans restriction. En outre, Cloudflare affirme qu'il sera également plus facile d'identifier le contenu que les bots analysent le plus, de sorte que les sites puissent éventuellement bloquer l'accès et faire payer les bots pour qu'ils collectent leur contenu le plus précieux. Pour ouvrir la voie à cet avenir, Cloudflare crée également une place de marché permettant à tous les sites de négocier des accords de contenu sur la base d'audits d'IA plus granulaires de leurs sites.

Les propriétaires de sites n'ont pas la possibilité de déterminer comment les services d'IA utilisent leur contenu à des fins de formation ou autres. Lundi, Cloudflare a lancé un ensemble d'outils pour permettre aux propriétaires de sites, aux créateurs et aux éditeurs de reprendre facilement le contrôle de la manière dont leur contenu est mis à la disposition des robots et des robots d'indexation liés à l'IA. Tous les clients de Cloudflare peuvent désormais auditer et contrôler la manière dont les modèles d'IA accèdent au contenu de leur site.

Ce lancement commence par une vue analytique détaillée des services d'IA qui parcourent votre site et du contenu spécifique auquel ils accèdent. Les clients peuvent examiner l'activité par fournisseur d'IA, par type de bot, et quelles sections de leur site sont les plus populaires. Ces données sont disponibles pour chaque site sur Cloudflare et ne nécessitent aucune configuration.

Cloudflare dit s'attendre à ce que ce nouveau niveau de visibilité incite les équipes à prendre une décision concernant leur exposition aux robots d'indexation. Pour leur donner le temps de prendre cette décision, Cloudflare propose désormais une option en un clic dans son tableau de bord pour bloquer immédiatement l'accès de tout crawler d'IA à n'importe quel site. Les équipes peuvent ensuite utiliser cette « pause » pour décider si elles veulent autoriser des fournisseurs d'IA ou des types de robots spécifiques à continuer. Une fois cette décision prise, les administrateurs peuvent utiliser de nouveaux filtres dans le tableau de bord de Cloudflare pour appliquer ces politiques en quelques clics seulement.

Certains des clients de Cloudflare ont déjà décidé de négocier des contrats directement avec les entreprises d'IA. Bon nombre de ces contrats comprennent des clauses relatives à la fréquence d'analyse et au type de contenu auquel il est possible d'accéder :

« Nous voulons que ces éditeurs disposent des outils nécessaires pour mesurer la mise en œuvre de ces accords. Dans le cadre de l'annonce d'aujourd'hui, les clients de Cloudflare peuvent désormais générer un rapport en un seul clic qui peut être utilisé pour vérifier l'activité autorisée dans ces accords.

« Nous pensons également que les sites de toute taille devraient être en mesure de déterminer comment ils souhaitent être rémunérés pour l'utilisation de leur contenu par des modèles d'IA. L'annonce d'aujourd'hui présente en avant-première une nouvelle fonctionnalité de monétisation de Cloudflare qui donnera aux propriétaires de sites les outils pour fixer les prix, contrôler l'accès et capturer de la valeur pour la numérisation de leur contenu ».

Nom : audit.png
Affichages : 3431
Taille : 94,3 Ko

Le contexte et les enjeux

Le scraping, ou l’extraction de données, est une pratique courante utilisée par les modèles d’IA pour collecter des informations à partir de diverses sources en ligne. Cependant, cette pratique pose des défis importants pour les créateurs de contenu. En effet, de nombreux sites web voient leur contenu utilisé sans compensation, ce qui peut nuire à leur modèle économique et réduire leur trafic.

Et Cloudflare d'expliquer :

« Jusqu'à récemment, les bots et les scrapers sur l'internet se répartissaient principalement en deux catégories : les bons et les mauvais. Les bons robots, comme les robots des moteurs de recherche, aidaient le public à découvrir votre site et à vous attirer du trafic. Les mauvais robots essayaient de faire tomber votre site, de passer avant vos clients dans la file d'attente ou de récupérer les données de vos concurrents. Nous avons conçu la plateforme Cloudflare Bot Management pour vous permettre de faire la distinction entre ces deux grandes catégories et de les autoriser ou de les bloquer.

« La montée en puissance des grands modèles de langage (LLM) et d'autres outils génératifs a créé une troisième catégorie plus obscure. Contrairement aux robots malveillants, les robots associés à ces plateformes n'essaient pas activement de mettre votre site hors ligne ou de gêner vos clients. Ils n'essaient pas de voler des données sensibles ; ils veulent simplement analyser ce qui est déjà public sur votre site.

« Toutefois, contrairement aux robots utiles, ces robots liés à l'IA ne génèrent pas nécessairement du trafic vers votre site. Les robots de scraping de données d'IA analysent le contenu de votre site pour former de nouveaux LLM. Votre contenu est ensuite passé dans une sorte de mixeur, mélangé à d'autres contenus et utilisé pour répondre aux questions des utilisateurs, sans attribution ni nécessité pour les utilisateurs de visiter votre site. Un autre type de robots, les AI Search Crawler bots, analysent votre contenu et tentent de le citer lorsqu'ils répondent à la recherche d'un utilisateur. L'inconvénient est que ces utilisateurs risquent de rester dans cette interface, plutôt que de visiter votre site, parce qu'une réponse est assemblée sur la page devant eux.

« Ce flou laisse les propriétaires de sites devant une décision difficile à prendre. L'échange de valeur n'est pas clair. Et les propriétaires de sites sont désavantagés alors qu'ils doivent rattraper leur retard. De nombreux sites ont permis à ces robots d'indexation de l'IA de scanner leur contenu parce que ces robots, pour la plupart, semblaient être de "bons" robots - mais le résultat est que leur site est moins fréquenté car leur contenu est reconditionné dans des réponses rédigées par l'IA.

« Nous pensons que cela représente un risque pour un Internet ouvert. Sans la possibilité de contrôler le balayage et de réaliser la valeur, les propriétaires de sites seront découragés de lancer ou de maintenir des propriétés Internet. Les créateurs dissimuleront une plus grande partie de leur contenu derrière des murs payants et les plus grands éditeurs concluront des accords directs. Les fournisseurs de modèles d'IA auront à leur tour du mal à trouver et à accéder à la longue traîne de contenus de haute qualité sur les sites plus petits ».

La place de marché est la dernière étape du plan plus vaste du PDG de Cloudflare, Matthew Prince, qui vise à donner aux éditeurs un meilleur contrôle sur la manière dont les robots d'IA collectent les données sur leurs sites web et sur le moment où ils le font.

Nom : bots.png
Affichages : 490
Taille : 63,9 Ko

Une situation qui ne va pas en s'améliorant

De plus en plus, les créateurs qui luttent pour contrôler ce qui se passe avec leur contenu ont été poussés à poursuivre les entreprises d'IA pour bloquer le scraping indésirable, comme l'a fait le New York Times, ou à placer le contenu derrière des murs payants, réduisant ainsi l'accès du public à l'information.

Cloudflare tente de résoudre un problème qui menace l'industrie de l'IA : comment les petits éditeurs pourront-ils survivre à l'ère de l'IA si les internautes se rendent sur ChatGPT plutôt que sur leur site web ? Aujourd'hui, les fournisseurs de modèles d'IA explorent des milliers de petits sites web à la recherche d'informations qui alimentent leurs modèles d'apprentissage. Si certains grands éditeurs ont conclu des accords avec OpenAI pour obtenir des licences sur le contenu, la plupart des sites web ne reçoivent rien, mais leur contenu continue d'alimenter quotidiennement les modèles d'IA les plus populaires. Cela pourrait briser les modèles commerciaux de nombreux sites web, en réduisant le trafic dont ils ont désespérément besoin.

Au début de l'été, la startup Perplexity, spécialisée dans la recherche alimentée par l'IA, a été accusée de récupérer des données de sites web qui avaient délibérément indiqué qu'ils ne voulaient pas être explorés à l'aide du protocole d'exclusion des robots (Robots Exclusion Protocol). Peu de temps après, Cloudflare a mis en place un bouton permettant aux clients de bloquer tous les robots d'IA en un seul clic.

« C'est le résultat d'une frustration que nous avons entendue, lorsque les gens avaient l'impression que leur contenu était volé », a déclaré Matthew Prince.

Certains propriétaires de sites web ont confié aux médias que des robots d'intelligence artificielle faisaient tellement de collecte de données sur leurs sites web qu'ils avaient l'impression qu'une attaque DDoS paralysait leurs serveurs. Le fait que votre site web soit parcouru par ses robots peut non seulement être dérangeant, mais aussi faire grimper votre facture de cloud et avoir un impact sur votre service.

Comment bloquer les robots en un clic

Désormais, les opérateurs de sites Cloudflare peuvent cesser de bloquer manuellement chaque robot d'intelligence artificielle un par un et choisir à la place de « bloquer tous les robots d'intelligence artificielle en un seul clic », a déclaré Cloudflare.

Ils peuvent le faire en visitant la section Bots sous l'onglet Security du tableau de bord de Cloudflare, puis en cliquant sur un lien bleu dans le coin supérieur droit « pour configurer la façon dont le proxy de Cloudflare gère le trafic des bots », a déclaré Cloudflare. Sur cet écran, les opérateurs peuvent facilement « basculer le bouton de la carte “Block AI Scrapers and Crawlers” sur la position “On” », bloquant tout et donnant aux créateurs de contenu le temps de réfléchir à l'accès qu'ils souhaitent réactiver, le cas échéant.

Au-delà du simple blocage des robots, les opérateurs peuvent également procéder à des audits de l'IA, en analysant rapidement les sections de leurs sites les plus scannées par les robots. À partir de là, les opérateurs peuvent décider quel scraping est autorisé et utiliser des contrôles sophistiqués pour décider quels bots peuvent scanner quelles parties de leurs sites.

« Pour certaines équipes, la décision sera d'autoriser les robots associés aux moteurs de recherche d'IA à scanner leurs propriétés Internet parce que ces outils peuvent encore générer du trafic vers le site », explique le blog de Cloudflare. « D'autres organisations peuvent signer des accords avec un fournisseur de modèle spécifique, et elles veulent autoriser n'importe quel type de robot de ce fournisseur à accéder à leur contenu ».

Le robot le plus frustrant pour les éditeurs aujourd'hui est sans doute le Googlebot, qu parcourt les sites pour alimenter les résultats de recherche ainsi que pour entraîner l'IA à générer des résumés affichés dans son outil de recherche, ce qui pourrait avoir un impact négatif sur le trafic vers les sites sources. Les éditeurs n'ont actuellement aucun moyen de se retirer des modèles d'entraînement alimentant l'IA de Google sans perdre leur visibilité dans les résultats de recherche, et les outils de Cloudflare ne pourront pas les sortir de cette position inconfortable, a confirmé Matthew Prince.

Pour les exploitants de sites qui seraient tentés de désactiver le scraping d'IA, le fait d'empêcher le Googlebot de faire du scraping et de provoquer par inadvertance des baisses de trafic peut être une raison impérieuse de ne pas utiliser la solution en un clic de Cloudflare.

Cependant, Matthew Prince s'attend à ce que « les pratiques de Google ne soient pas viables à long terme » et à ce que « Cloudflare contribue à inciter Google et d'autres entreprises comme Google » à donner aux créateurs « un contrôle beaucoup plus granulaire » sur la manière dont les robots comme le Googlebot parcourent le web pour entraîner l'IA.

Cloudlare pourrait facturer son service s'il finit par traiter et envoyer des paiements

Si Cloudflare se contente de mettre en relation des entreprises d'IA avec des créateurs de contenu pour faciliter les transactions, il se peut que Cloudflare ne facture pas de frais, considérant qu'il s'agit d'une caractéristique de son offre de services globale.

Mais si Cloudflare finit par traiter et envoyer des paiements, Cloudflare facturera probablement des frais, de la même manière qu'un magasin d'applications prend une part dans le traitement des paiements d'applications. Avant que cela ne se produise, a déclaré Matthew Prince, Cloudflare devra se renseigner sur les lois relatives à la connaissance du client et à la lutte contre le blanchiment d'argent, mais Matthew Prince a indiqué que Cloudflare ne considérait pas ces obstacles réglementaires comme dissuasifs :

« Il se peut que nous ne facturions pas de frais spécifiquement pour la place de marché, mais j'ai l'impression que nous le ferions, en particulier parce que nous voulons servir les plus de 40 millions de sites web qui utilisent Cloudflare aujourd'hui. Trouver le moyen d'effectuer des paiements pour chacun d'entre eux sera une tâche difficile, bien que soluble, et nous devrions au moins récupérer les coûts de cette opération. »

Bien que cet outil soit présenté comme un moyen pour les « sites de toute taille » d'être « équitablement rémunérés » pour leur contenu, Cloudflare estime qu'il pourrait également devenir un outil de choix pour les éditeurs actuellement exclus des premiers contrats de licence d'IA et qui cherchent à négocier des conditions similaires.

Conclusion

Le lancement de ce marché par Cloudflare représente une avancée majeure pour les créateurs de contenu et les propriétaires de sites web. En leur offrant des outils pour contrôler et monétiser l’accès à leurs contenus, Cloudflare répond à un besoin crucial dans l’ère de l’IA. Reste à voir comment cette initiative sera adoptée par l’industrie et quels impacts elle aura sur l’écosystème numérique global.

Source : Cloudflare (1, 2)

Et vous ?

Que pensez-vous de l’idée de facturer les bots IA pour le scraping de contenu ? Est-ce une solution équitable pour les créateurs de contenu ?
Comment cette initiative pourrait-elle affecter votre utilisation des outils d’IA pour la recherche et le développement ?
Pensez-vous que d’autres entreprises devraient suivre l’exemple de Cloudflare et offrir des outils similaires ? Pourquoi ou pourquoi pas ?
Quels pourraient être les impacts à long terme de cette initiative sur l’écosystème numérique global ?
Comment les créateurs de contenu peuvent-ils équilibrer la monétisation de leurs données avec le besoin de rendre l’information accessible ?
Voyez-vous des inconvénients potentiels à la mise en place de ce marché de la donnée ? Si oui, lesquels ?
Comment cette initiative pourrait-elle influencer la relation entre les créateurs de contenu et les développeurs de modèles d’IA ?