IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 365
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 365
    Par défaut Cloudflare retourne l'IA contre elle-même en déployant un labyrinthe sans fin de faits non pertinents
    Cloudflare lance une place de marché pour permettre aux sites web de facturer les robots d'IA pour le scraping,
    et propose des outils pour bloquer les bots d'IA en un seul clic

    Cloudflare a annoncé lundi de nouveaux outils qui, selon elle, aideront à mettre fin à l'ère du scraping IA sans fin en donnant à tous les sites de son réseau le pouvoir de bloquer les bots en un seul clic. L'un des objectifs est de mettre un terme à l'avalanche de collecte de données d'IA sans restriction. En outre, Cloudflare affirme qu'il sera également plus facile d'identifier le contenu que les bots analysent le plus, de sorte que les sites puissent éventuellement bloquer l'accès et faire payer les bots pour qu'ils collectent leur contenu le plus précieux. Pour ouvrir la voie à cet avenir, Cloudflare crée également une place de marché permettant à tous les sites de négocier des accords de contenu sur la base d'audits d'IA plus granulaires de leurs sites.

    Les propriétaires de sites n'ont pas la possibilité de déterminer comment les services d'IA utilisent leur contenu à des fins de formation ou autres. Lundi, Cloudflare a lancé un ensemble d'outils pour permettre aux propriétaires de sites, aux créateurs et aux éditeurs de reprendre facilement le contrôle de la manière dont leur contenu est mis à la disposition des robots et des robots d'indexation liés à l'IA. Tous les clients de Cloudflare peuvent désormais auditer et contrôler la manière dont les modèles d'IA accèdent au contenu de leur site.

    Ce lancement commence par une vue analytique détaillée des services d'IA qui parcourent votre site et du contenu spécifique auquel ils accèdent. Les clients peuvent examiner l'activité par fournisseur d'IA, par type de bot, et quelles sections de leur site sont les plus populaires. Ces données sont disponibles pour chaque site sur Cloudflare et ne nécessitent aucune configuration.

    Cloudflare dit s'attendre à ce que ce nouveau niveau de visibilité incite les équipes à prendre une décision concernant leur exposition aux robots d'indexation. Pour leur donner le temps de prendre cette décision, Cloudflare propose désormais une option en un clic dans son tableau de bord pour bloquer immédiatement l'accès de tout crawler d'IA à n'importe quel site. Les équipes peuvent ensuite utiliser cette « pause » pour décider si elles veulent autoriser des fournisseurs d'IA ou des types de robots spécifiques à continuer. Une fois cette décision prise, les administrateurs peuvent utiliser de nouveaux filtres dans le tableau de bord de Cloudflare pour appliquer ces politiques en quelques clics seulement.

    Certains des clients de Cloudflare ont déjà décidé de négocier des contrats directement avec les entreprises d'IA. Bon nombre de ces contrats comprennent des clauses relatives à la fréquence d'analyse et au type de contenu auquel il est possible d'accéder :

    « Nous voulons que ces éditeurs disposent des outils nécessaires pour mesurer la mise en œuvre de ces accords. Dans le cadre de l'annonce d'aujourd'hui, les clients de Cloudflare peuvent désormais générer un rapport en un seul clic qui peut être utilisé pour vérifier l'activité autorisée dans ces accords.

    « Nous pensons également que les sites de toute taille devraient être en mesure de déterminer comment ils souhaitent être rémunérés pour l'utilisation de leur contenu par des modèles d'IA. L'annonce d'aujourd'hui présente en avant-première une nouvelle fonctionnalité de monétisation de Cloudflare qui donnera aux propriétaires de sites les outils pour fixer les prix, contrôler l'accès et capturer de la valeur pour la numérisation de leur contenu ».

    Nom : audit.png
Affichages : 5075
Taille : 94,3 Ko

    Le contexte et les enjeux

    Le scraping, ou l’extraction de données, est une pratique courante utilisée par les modèles d’IA pour collecter des informations à partir de diverses sources en ligne. Cependant, cette pratique pose des défis importants pour les créateurs de contenu. En effet, de nombreux sites web voient leur contenu utilisé sans compensation, ce qui peut nuire à leur modèle économique et réduire leur trafic.

    Et Cloudflare d'expliquer :

    « Jusqu'à récemment, les bots et les scrapers sur l'internet se répartissaient principalement en deux catégories : les bons et les mauvais. Les bons robots, comme les robots des moteurs de recherche, aidaient le public à découvrir votre site et à vous attirer du trafic. Les mauvais robots essayaient de faire tomber votre site, de passer avant vos clients dans la file d'attente ou de récupérer les données de vos concurrents. Nous avons conçu la plateforme Cloudflare Bot Management pour vous permettre de faire la distinction entre ces deux grandes catégories et de les autoriser ou de les bloquer.

    « La montée en puissance des grands modèles de langage (LLM) et d'autres outils génératifs a créé une troisième catégorie plus obscure. Contrairement aux robots malveillants, les robots associés à ces plateformes n'essaient pas activement de mettre votre site hors ligne ou de gêner vos clients. Ils n'essaient pas de voler des données sensibles ; ils veulent simplement analyser ce qui est déjà public sur votre site.

    « Toutefois, contrairement aux robots utiles, ces robots liés à l'IA ne génèrent pas nécessairement du trafic vers votre site. Les robots de scraping de données d'IA analysent le contenu de votre site pour former de nouveaux LLM. Votre contenu est ensuite passé dans une sorte de mixeur, mélangé à d'autres contenus et utilisé pour répondre aux questions des utilisateurs, sans attribution ni nécessité pour les utilisateurs de visiter votre site. Un autre type de robots, les AI Search Crawler bots, analysent votre contenu et tentent de le citer lorsqu'ils répondent à la recherche d'un utilisateur. L'inconvénient est que ces utilisateurs risquent de rester dans cette interface, plutôt que de visiter votre site, parce qu'une réponse est assemblée sur la page devant eux.

    « Ce flou laisse les propriétaires de sites devant une décision difficile à prendre. L'échange de valeur n'est pas clair. Et les propriétaires de sites sont désavantagés alors qu'ils doivent rattraper leur retard. De nombreux sites ont permis à ces robots d'indexation de l'IA de scanner leur contenu parce que ces robots, pour la plupart, semblaient être de "bons" robots - mais le résultat est que leur site est moins fréquenté car leur contenu est reconditionné dans des réponses rédigées par l'IA.

    « Nous pensons que cela représente un risque pour un Internet ouvert. Sans la possibilité de contrôler le balayage et de réaliser la valeur, les propriétaires de sites seront découragés de lancer ou de maintenir des propriétés Internet. Les créateurs dissimuleront une plus grande partie de leur contenu derrière des murs payants et les plus grands éditeurs concluront des accords directs. Les fournisseurs de modèles d'IA auront à leur tour du mal à trouver et à accéder à la longue traîne de contenus de haute qualité sur les sites plus petits ».

    La place de marché est la dernière étape du plan plus vaste du PDG de Cloudflare, Matthew Prince, qui vise à donner aux éditeurs un meilleur contrôle sur la manière dont les robots d'IA collectent les données sur leurs sites web et sur le moment où ils le font.

    Nom : bots.png
Affichages : 1388
Taille : 63,9 Ko

    Une situation qui ne va pas en s'améliorant

    De plus en plus, les créateurs qui luttent pour contrôler ce qui se passe avec leur contenu ont été poussés à poursuivre les entreprises d'IA pour bloquer le scraping indésirable, comme l'a fait le New York Times, ou à placer le contenu derrière des murs payants, réduisant ainsi l'accès du public à l'information.

    Cloudflare tente de résoudre un problème qui menace l'industrie de l'IA : comment les petits éditeurs pourront-ils survivre à l'ère de l'IA si les internautes se rendent sur ChatGPT plutôt que sur leur site web ? Aujourd'hui, les fournisseurs de modèles d'IA explorent des milliers de petits sites web à la recherche d'informations qui alimentent leurs modèles d'apprentissage. Si certains grands éditeurs ont conclu des accords avec OpenAI pour obtenir des licences sur le contenu, la plupart des sites web ne reçoivent rien, mais leur contenu continue d'alimenter quotidiennement les modèles d'IA les plus populaires. Cela pourrait briser les modèles commerciaux de nombreux sites web, en réduisant le trafic dont ils ont désespérément besoin.

    Au début de l'été, la startup Perplexity, spécialisée dans la recherche alimentée par l'IA, a été accusée de récupérer des données de sites web qui avaient délibérément indiqué qu'ils ne voulaient pas être explorés à l'aide du protocole d'exclusion des robots (Robots Exclusion Protocol). Peu de temps après, Cloudflare a mis en place un bouton permettant aux clients de bloquer tous les robots d'IA en un seul clic.

    « C'est le résultat d'une frustration que nous avons entendue, lorsque les gens avaient l'impression que leur contenu était volé », a déclaré Matthew Prince.

    Certains propriétaires de sites web ont confié aux médias que des robots d'intelligence artificielle faisaient tellement de collecte de données sur leurs sites web qu'ils avaient l'impression qu'une attaque DDoS paralysait leurs serveurs. Le fait que votre site web soit parcouru par ses robots peut non seulement être dérangeant, mais aussi faire grimper votre facture de cloud et avoir un impact sur votre service.

    Comment bloquer les robots en un clic

    Désormais, les opérateurs de sites Cloudflare peuvent cesser de bloquer manuellement chaque robot d'intelligence artificielle un par un et choisir à la place de « bloquer tous les robots d'intelligence artificielle en un seul clic », a déclaré Cloudflare.

    Ils peuvent le faire en visitant la section Bots sous l'onglet Security du tableau de bord de Cloudflare, puis en cliquant sur un lien bleu dans le coin supérieur droit « pour configurer la façon dont le proxy de Cloudflare gère le trafic des bots », a déclaré Cloudflare. Sur cet écran, les opérateurs peuvent facilement « basculer le bouton de la carte “Block AI Scrapers and Crawlers” sur la position “On” », bloquant tout et donnant aux créateurs de contenu le temps de réfléchir à l'accès qu'ils souhaitent réactiver, le cas échéant.

    Au-delà du simple blocage des robots, les opérateurs peuvent également procéder à des audits de l'IA, en analysant rapidement les sections de leurs sites les plus scannées par les robots. À partir de là, les opérateurs peuvent décider quel scraping est autorisé et utiliser des contrôles sophistiqués pour décider quels bots peuvent scanner quelles parties de leurs sites.

    « Pour certaines équipes, la décision sera d'autoriser les robots associés aux moteurs de recherche d'IA à scanner leurs propriétés Internet parce que ces outils peuvent encore générer du trafic vers le site », explique le blog de Cloudflare. « D'autres organisations peuvent signer des accords avec un fournisseur de modèle spécifique, et elles veulent autoriser n'importe quel type de robot de ce fournisseur à accéder à leur contenu ».

    Le robot le plus frustrant pour les éditeurs aujourd'hui est sans doute le Googlebot, qu parcourt les sites pour alimenter les résultats de recherche ainsi que pour entraîner l'IA à générer des résumés affichés dans son outil de recherche, ce qui pourrait avoir un impact négatif sur le trafic vers les sites sources. Les éditeurs n'ont actuellement aucun moyen de se retirer des modèles d'entraînement alimentant l'IA de Google sans perdre leur visibilité dans les résultats de recherche, et les outils de Cloudflare ne pourront pas les sortir de cette position inconfortable, a confirmé Matthew Prince.

    Pour les exploitants de sites qui seraient tentés de désactiver le scraping d'IA, le fait d'empêcher le Googlebot de faire du scraping et de provoquer par inadvertance des baisses de trafic peut être une raison impérieuse de ne pas utiliser la solution en un clic de Cloudflare.

    Cependant, Matthew Prince s'attend à ce que « les pratiques de Google ne soient pas viables à long terme » et à ce que « Cloudflare contribue à inciter Google et d'autres entreprises comme Google » à donner aux créateurs « un contrôle beaucoup plus granulaire » sur la manière dont les robots comme le Googlebot parcourent le web pour entraîner l'IA.

    Cloudlare pourrait facturer son service s'il finit par traiter et envoyer des paiements

    Si Cloudflare se contente de mettre en relation des entreprises d'IA avec des créateurs de contenu pour faciliter les transactions, il se peut que Cloudflare ne facture pas de frais, considérant qu'il s'agit d'une caractéristique de son offre de services globale.

    Mais si Cloudflare finit par traiter et envoyer des paiements, Cloudflare facturera probablement des frais, de la même manière qu'un magasin d'applications prend une part dans le traitement des paiements d'applications. Avant que cela ne se produise, a déclaré Matthew Prince, Cloudflare devra se renseigner sur les lois relatives à la connaissance du client et à la lutte contre le blanchiment d'argent, mais Matthew Prince a indiqué que Cloudflare ne considérait pas ces obstacles réglementaires comme dissuasifs :

    « Il se peut que nous ne facturions pas de frais spécifiquement pour la place de marché, mais j'ai l'impression que nous le ferions, en particulier parce que nous voulons servir les plus de 40 millions de sites web qui utilisent Cloudflare aujourd'hui. Trouver le moyen d'effectuer des paiements pour chacun d'entre eux sera une tâche difficile, bien que soluble, et nous devrions au moins récupérer les coûts de cette opération. »

    Bien que cet outil soit présenté comme un moyen pour les « sites de toute taille » d'être « équitablement rémunérés » pour leur contenu, Cloudflare estime qu'il pourrait également devenir un outil de choix pour les éditeurs actuellement exclus des premiers contrats de licence d'IA et qui cherchent à négocier des conditions similaires.

    Conclusion

    Le lancement de ce marché par Cloudflare représente une avancée majeure pour les créateurs de contenu et les propriétaires de sites web. En leur offrant des outils pour contrôler et monétiser l’accès à leurs contenus, Cloudflare répond à un besoin crucial dans l’ère de l’IA. Reste à voir comment cette initiative sera adoptée par l’industrie et quels impacts elle aura sur l’écosystème numérique global.

    Source : Cloudflare (1, 2)

    Et vous ?

    Que pensez-vous de l’idée de facturer les bots IA pour le scraping de contenu ? Est-ce une solution équitable pour les créateurs de contenu ?
    Comment cette initiative pourrait-elle affecter votre utilisation des outils d’IA pour la recherche et le développement ?
    Pensez-vous que d’autres entreprises devraient suivre l’exemple de Cloudflare et offrir des outils similaires ? Pourquoi ou pourquoi pas ?
    Quels pourraient être les impacts à long terme de cette initiative sur l’écosystème numérique global ?
    Comment les créateurs de contenu peuvent-ils équilibrer la monétisation de leurs données avec le besoin de rendre l’information accessible ?
    Voyez-vous des inconvénients potentiels à la mise en place de ce marché de la donnée ? Si oui, lesquels ?
    Comment cette initiative pourrait-elle influencer la relation entre les créateurs de contenu et les développeurs de modèles d’IA ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 365
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 365
    Par défaut Cloudflare retourne l'IA contre elle-même en déployant un labyrinthe sans fin de faits non pertinents
    Cloudflare retourne l'IA contre elle-même en déployant un labyrinthe sans fin de faits non pertinents,
    pour lutter contre le scraping non autorisé de données d'entraînement d'IA comme ChatGPT

    Le fournisseur d'infrastructure web Cloudflare a annoncé une nouvelle fonctionnalité appelée « AI Labyrinth » qui vise à lutter contre le scraping de données d'IA non autorisé en proposant aux robots un faux contenu généré par l'IA. L'outil tentera de contrecarrer les entreprises d'IA qui parcourent les sites web sans autorisation pour collecter des données d'entraînement pour les grands modèles de langage qui alimentent les assistants d'IA tels que ChatGPT.

    Cloudflare, fondée en 2009, est probablement mieux connue comme une entreprise qui fournit des services d'infrastructure et de sécurité pour les sites web, en particulier la protection contre les attaques par déni de service distribué (DDoS) et d'autres trafics malveillants.

    Au lieu de simplement bloquer les robots, le nouveau système de Cloudflare les attire dans un « labyrinthe » de pages réalistes mais non pertinentes, gaspillant ainsi les ressources informatiques du robot d'exploration. Cette approche constitue un changement notable par rapport à la stratégie standard de blocage et de défense utilisée par la plupart des services de protection des sites web. Cloudflare explique que le blocage des robots se retourne parfois contre eux, car il avertit les opérateurs du robot qu'ils ont été détectés.

    « Lorsque nous détectons une exploration non autorisée, au lieu de bloquer la demande, nous établissons un lien vers une série de pages générées par l'IA qui sont suffisamment convaincantes pour inciter un robot à les parcourir », écrit Cloudflare. « Mais bien qu'il ait l'air réel, ce contenu n'est pas réellement le contenu du site que nous protégeons, de sorte que le robot d'exploration perd du temps et des ressources ».

    L'entreprise affirme que le contenu servi aux robots est délibérément sans rapport avec le site web exploré, mais qu'il est soigneusement sourcé ou généré à l'aide de faits scientifiques réels, tels que des informations neutres sur la biologie, la physique ou les mathématiques, afin d'éviter la diffusion de fausses informations (il n'est toutefois pas prouvé que cette approche empêche effectivement la diffusion de fausses informations). Cloudflare crée ce contenu à l'aide de son service Workers AI, une plateforme commerciale qui exécute des tâches d'intelligence artificielle.

    Cloudflare a conçu les pages et les liens piégés de manière à ce qu'ils restent invisibles et inaccessibles aux visiteurs ordinaires, afin que les internautes ne tombent pas dessus par hasard.

    Un pot de miel « de nouvelle génération »

    AI Labyrinth fonctionne comme ce que Cloudflare appelle un « pot de miel de nouvelle génération ». Les pots de miel traditionnels sont des liens invisibles que les visiteurs humains ne peuvent pas voir, mais que les robots analysant le code HTML peuvent suivre. Mais Cloudflare explique que les robots modernes sont devenus habiles à repérer ces pièges simples, ce qui nécessite une tromperie plus sophistiquée. Les faux liens contiennent des métadirectives appropriées pour empêcher l'indexation par les moteurs de recherche tout en restant attrayants pour les robots pilleurs de données.

    « Aucun être humain ne s'enfoncerait à quatre liens de profondeur dans un labyrinthe d'absurdités générées par l'IA », explique Cloudflare. « Tout visiteur qui le fait est très probablement un robot, ce qui nous donne un tout nouvel outil pour identifier les robots malveillants et en prendre les empreintes ».

    Cette identification alimente une boucle de rétroaction d'apprentissage automatique - les données recueillies par AI Labyrinth sont utilisées pour améliorer en permanence la détection des bots sur le réseau de Cloudflare, améliorant ainsi la protection des clients au fil du temps. Les clients de n'importe quel plan Cloudflare (même le plan gratuit) peuvent activer la fonction en appuyant sur un simple bouton dans les paramètres de leur tableau de bord.

    Nom : laby.png
Affichages : 17889
Taille : 81,2 Ko

    Utiliser l'IA générative comme arme défensive

    Ci-dessous, un extrait du billet de présentation de Cloudflare :

    Le contenu généré par l'IA a explosé, et aurait représenté quatre des 20 principaux messages sur Facebook l'automne dernier. En outre, Medium estime que 47 % de l'ensemble du contenu sur sa plateforme est généré par l'IA. Comme tout nouvel outil, l'IA a des utilisations merveilleuses et malveillantes.

    Parallèlement, nous avons également assisté à une explosion des nouveaux crawlers utilisés par les entreprises d'IA pour récupérer des données en vue de l'entraînement des modèles. Les crawlers d'IA génèrent plus de 50 milliards de requêtes sur le réseau Cloudflare chaque jour, soit un peu moins de 1 % de toutes les requêtes web que nous voyons. Bien que Cloudflare dispose de plusieurs outils pour identifier et bloquer les robots d'IA non autorisés, nous avons constaté que le blocage des robots malveillants peut alerter l'attaquant que vous êtes sur eux, ce qui conduit à un changement d'approche et à une course à l'armement sans fin. Nous avons donc voulu créer un nouveau moyen de contrecarrer ces robots indésirables, sans leur faire savoir qu'ils ont été contrecarrés.

    Pour ce faire, nous avons décidé d'utiliser un nouvel outil offensif dans la panoplie des créateurs de bots, que nous n'avons pas vraiment vu utilisé de manière défensive : le contenu généré par l'IA. Lorsque nous détectons une exploration non autorisée, au lieu de bloquer la requête, nous établissons un lien vers une série de pages générées par l'IA qui sont suffisamment convaincantes pour inciter un robot d'exploration à les parcourir. Bien qu'il ait l'air réel, ce contenu n'est pas celui du site que nous protégeons, ce qui fait perdre du temps et des ressources au robot d'exploration.

    En outre, AI Labyrinth agit également comme un pot de miel de nouvelle génération. Aucun être humain n'irait chercher quatre liens dans un labyrinthe d'absurdités générées par l'IA. Tout visiteur qui le fait est très probablement un robot, ce qui nous donne un tout nouvel outil pour identifier et prendre les empreintes des mauvais robots, que nous ajoutons à notre liste de mauvais acteurs connus.

    Comment nous avons construit le labyrinthe

    Lorsque les robots d'indexation suivent ces liens, ils gaspillent de précieuses ressources informatiques en traitant des contenus non pertinents au lieu d'extraire les données légitimes de votre site web. Cela réduit considérablement leur capacité à recueillir suffisamment d'informations utiles pour former leurs modèles de manière efficace.

    Pour générer un contenu humain convaincant, nous avons utilisé Workers AI avec un modèle open source pour créer des pages HTML uniques sur divers sujets. Plutôt que de créer ce contenu à la demande (ce qui pourrait avoir un impact sur les performances), nous avons mis en œuvre un pipeline de pré-génération qui assainit le contenu pour éviter toute vulnérabilité XSS, et le stocke dans R2 pour une récupération plus rapide. Nous avons constaté que le fait de générer d'abord un ensemble diversifié de sujets, puis de créer du contenu pour chaque sujet, produisait des résultats plus variés et plus convaincants. Il est important pour nous de ne pas générer de contenu inexact qui contribuerait à la diffusion de fausses informations sur Internet. Le contenu que nous générons est donc réel et lié à des faits scientifiques, mais il n'est pas pertinent ou propriétaire du site exploré.

    Ce contenu pré-généré est intégré de manière transparente en tant que liens cachés sur des pages existantes via notre processus de transformation HTML personnalisé, sans perturber la structure ou le contenu d'origine de la page. Chaque page générée comprend des méta directives appropriées pour protéger le référencement en empêchant l'indexation par les moteurs de recherche. Nous avons également veillé à ce que ces liens restent invisibles pour les visiteurs humains grâce à des attributs et à un style soigneusement mis en œuvre. Pour minimiser encore l'impact sur les visiteurs réguliers, nous avons veillé à ce que ces liens ne soient présentés qu'aux personnes soupçonnées d'utiliser l'IA, tout en permettant aux utilisateurs légitimes et aux robots d'exploration vérifiés de naviguer normalement.

    Nom : AI.png
Affichages : 5854
Taille : 79,5 Ko

    L'ampleur de l'exploration par l'IA sur le web semble considérable

    Selon les données de Cloudflare, les robots d'indexation génèrent plus de 50 milliards de requêtes par jour sur son réseau, soit près de 1 % de l'ensemble du trafic web qu'elle traite. Nombre de ces robots collectent des données sur les sites web pour entraîner de grands modèles de langage sans l'autorisation des propriétaires des sites, une pratique qui a donné lieu à de nombreuses actions en justice de la part des créateurs de contenu et des éditeurs.

    Cette technique représente une application défensive intéressante de l'IA, qui protège les propriétaires de sites web et les créateurs au lieu de menacer leur propriété intellectuelle. Toutefois, on ne sait pas très bien à quelle vitesse les robots d'indexation de l'IA pourraient s'adapter pour détecter et éviter de tels pièges, ce qui pourrait obliger Cloudflare à accroître la complexité de ses tactiques de tromperie. En outre, le gaspillage des ressources des entreprises d'IA pourrait ne pas plaire à ceux qui critiquent les coûts énergétiques et environnementaux perçus de l'exploitation des modèles d'IA.

    Cloudflare décrit ce projet comme la « première itération » de l'utilisation défensive de l'IA contre les robots. Il est prévu de rendre le faux contenu plus difficile à détecter et d'intégrer les fausses pages de manière plus transparente dans les structures des sites web. Le jeu du chat et de la souris entre les sites web et les racleurs de données se poursuit, l'IA étant désormais utilisée des deux côtés de la bataille.

    Nom : audit.png
Affichages : 5642
Taille : 94,4 Ko

    Ce n'est pas la première fois que Cloudflare s'attaque à cette problématique

    Les propriétaires de sites n'ont pas la possibilité de déterminer comment les services d'IA utilisent leur contenu à des fins de formation ou autres. Aussi, en septembre, Cloudflare a lancé un ensemble d'outils pour permettre aux propriétaires de sites, aux créateurs et aux éditeurs de reprendre facilement le contrôle de la manière dont leur contenu est mis à la disposition des robots d'indexation liés à l'IA. Depuis, tous les clients de Cloudflare peuvent auditer et contrôler la manière dont les modèles d'IA accèdent au contenu de leur site.

    Ce lancement commence par une vue analytique détaillée des services d'IA qui parcourent votre site et du contenu spécifique auquel ils accèdent. Les clients peuvent examiner l'activité par fournisseur d'IA, par type de bot, et quelles sections de leur site sont les plus populaires. Ces données sont disponibles pour chaque site sur Cloudflare et ne nécessitent aucune configuration.

    Cloudflare dit s'attendre à ce que ce nouveau niveau de visibilité incite les équipes à prendre une décision concernant leur exposition aux robots d'indexation. Pour leur donner le temps de prendre cette décision, Cloudflare propose désormais une option en un clic dans son tableau de bord pour bloquer immédiatement l'accès de tout crawler d'IA à n'importe quel site. Les équipes peuvent ensuite utiliser cette « pause » pour décider si elles veulent autoriser des fournisseurs d'IA ou des types de robots spécifiques à continuer. Une fois cette décision prise, les administrateurs peuvent utiliser de nouveaux filtres dans le tableau de bord de Cloudflare pour appliquer ces politiques en quelques clics seulement.

    Certains des clients de Cloudflare ont déjà décidé de négocier des contrats directement avec les entreprises d'IA. Bon nombre de ces contrats comprennent des clauses relatives à la fréquence d'analyse et au type de contenu auquel il est possible d'accéder

    Source : Cloudflare

    Et vous ?

    Que pensez-vous de cette approche de Cloudflare ? Êtes-vous pour ou contre le concept de "punir" les entreprises d'IA en les submergeant de données inutiles ?

    Dans quelle mesure les entreprises d'IA doivent-elles être responsables de la collecte et de l'utilisation des données web, notamment en ce qui concerne le respect du "no crawl" ?

    L'initiative de Cloudflare remet-elle en question la capacité des entreprises d'IA à respecter les normes de confidentialité des données ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  3. #3
    Membre confirmé
    Homme Profil pro
    autre
    Inscrit en
    Juin 2014
    Messages
    276
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Juin 2014
    Messages : 276
    Par défaut
    On l'avait tous anticipé. Ça y est, la boucle est (officiellement) bouclée.

  4. #4
    Membre éprouvé
    Homme Profil pro
    Développeur
    Inscrit en
    Août 2003
    Messages
    1 451
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Développeur

    Informations forums :
    Inscription : Août 2003
    Messages : 1 451
    Par défaut
    Pour lutter contre les robots, je pensais à la limite de requête par durée par IP mais ouvrir quelques pages cibles pour détecter un bot est une bonne idée.

  5. #5
    Membre habitué
    Profil pro
    Inscrit en
    Mars 2010
    Messages
    11
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2010
    Messages : 11
    Par défaut
    Les données intéressantes ont déjà été scrappées, les prochaines générées par IA de toutes façon... bizarre

Discussions similaires

  1. Réponses: 0
    Dernier message: 04/07/2024, 13h54
  2. Réponses: 1
    Dernier message: 06/11/2023, 13h17
  3. Réponses: 2
    Dernier message: 01/10/2022, 22h30
  4. Réponses: 3
    Dernier message: 31/05/2022, 15h31
  5. Nordea lance une nouvelle application iPhone pour ses fonds
    Par Mejdi20 dans le forum Communiqués
    Réponses: 0
    Dernier message: 11/10/2010, 23h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo