OpenAI dévoile GPTBot, un bot qui explore les données du Web public pour l'apprentissage de l'IA

**Jade Emy** · 08/08/2023, 09h29

OpenAI dévoile GPTBot, un bot qui explore les données du Web public pour l'apprentissage de l'IA, pour répondre aux plaintes concernant l'utilisation de données de sites Web.

OpenAI a lancé un nouveau web crawler appelé GPTBot pour collecter les données publiques disponibles sur Internet afin d'entraîner les modèles d'intelligence artificielle. Ce lancement intervient dans un contexte de controverses récentes où des entreprises technologiques ont été accusées de récupérer des sites web sans consentement explicite pour alimenter de grands modèles de langage tels que GPT-4.

GPTBot se veut plus transparent, en s'identifiant correctement pour permettre aux webmasters d'autoriser ou non l'accès. Le robot utilise le jeton d'agent utilisateur "GPTBot" et une chaîne d'agent utilisateur complète indiquant clairement qu'il provient d'OpenAI.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

OpenAI précise que GPTBot n'accède qu'aux sites qui ne requièrent pas d'inscription à un paywall, qui ne recueillent pas de données d'utilisateur personnellement identifiables ou qui ne contiennent pas de texte violant la politique de l'entreprise. L'entreprise affirme que l'autorisation du bot peut contribuer à améliorer la précision et les capacités des systèmes d'intelligence artificielle.

Ce lancement reflète la réponse d'OpenAI aux récentes critiques concernant les grands modèles de langage tels que GPT-4 qui ont été formés sur des données de sites web sans autorisation explicite. Même si le contenu est accessible au public, les critiques soutiennent qu'il devrait toujours y avoir des accords d'acceptation pour l'entraînement de l'IA. Ils s'inquiètent également du fait que le contenu soit sorti de son contexte lorsqu'il est introduit dans les systèmes d'intelligence artificielle.

Nom : 1.PNG
Affichages : 915
Taille : 79,2 Ko

Le lancement de GPTBot met en évidence les zones d'ombre entourant l'utilisation de données accessibles au public pour développer des modèles d'IA, qui peuvent bénéficier de vastes ensembles de données d'entraînement. Il illustre les débats éthiques qui émergent au fur et à mesure que les capacités de l'IA progressent. À l'avenir, des lignes directrices plus claires en matière de protection de la vie privée et des cadres éthiques seront nécessaires pour trouver le bon équilibre.

Voici quelques informations publiées par OpenAI sur l'utilisation de GPTBot :

Utilisation

Les pages web explorées avec l'agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer les modèles futurs et sont filtrées pour supprimer les sources qui nécessitent un accès payant, qui sont connues pour collecter des informations personnelles identifiables (PII), ou qui contiennent du texte qui viole nos politiques. Permettre à GPTBot d'accéder à votre site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité. Nous vous expliquons ci-dessous comment empêcher GPTBot d'accéder à votre site.

Désactiver GPTBot

Pour empêcher GPTBot d'accéder à votre site, vous pouvez ajouter GPTBot au fichier robots.txt de votre site :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
User-agent: GPTBot
Disallow: /

Personnaliser l'accès à GPTBot

Pour permettre à GPTBot d'accéder uniquement à certaines parties de votre site, vous pouvez ajouter le jeton GPTBot au fichier robots.txt de votre site comme suit :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Source : OpenAI

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur cette action d'OpenAI d'être plus transparent ?

Voir aussi :

ChatGPT d'OpenAI dans le collimateur de la FTC : l'agence veut déterminer si l'IA met en danger la réputation et les données des utilisateurs

Le PDG d'OpenAI confirme que l'entreprise ne travaille pas actuellement sur GPT-5 :
« Nous ne le faisons pas et ne le ferons pas avant un certain temps »

Une plainte dénonce le pillage des données publiques par Google pour entraîner son chatbot Bard.
Des données d'enfants, d'artistes et d'écrivains prises sans consentement

**Jade Emy** · 29/09/2023, 15h57

Les sites web peuvent choisir de bloquer Google Bard et les futurs modèles d'IA grâce à Google-Extended.

Les sites web peuvent désormais choisir de ne pas utiliser Google Bard ou tout autre modèle d'intelligence artificielle que Google pourrait créer à l'avenir. Google a fait cette annonce jeudi en présentant un nouvel outil appelé Google-Extended qui permettra aux sites d'être indexés par les crawlers (ou un bot créant des entrées pour les moteurs de recherche), tout en n'ayant pas accès à leurs données pour entraîner les futurs modèles d'IA.

Pour les administrateurs de sites web, il s'agit d'une solution facile, disponible via robots.txt (ou le fichier texte qui permet aux robots d'indexation d'accéder aux sites). Dans un communiqué, Danielle Romain, vice-présidente de la confiance, a déclaré que Google avait appris des éditeurs de sites web "qu'ils souhaitaient avoir plus de choix et de contrôle sur la manière dont leur contenu est utilisé pour les cas d'utilisation émergents de l'IA générative".

"En utilisant Google-Extended pour contrôler l'accès au contenu d'un site, l'administrateur du site peut choisir d'aider ces modèles d'IA à devenir plus précis et plus performants au fil du temps", a ajouté Mme Romain.

Nom : 1.PNG
Affichages : 1744
Taille : 210,0 Ko

OpenAI, le fabricant de ChatGPT, a récemment lancé son propre robot d'exploration du web, mais a inclus des instructions sur la manière de le bloquer. Des publications telles que Medium, le New York Times, CNN et Reuters ont notamment fait de même.

Le Bard de Google est apparu comme un concurrent rapide de ChatGPT, mais il a rencontré des problèmes, notamment des fuites et des résultats erronés. Néanmoins, le modèle d'IA s'est amélioré depuis son lancement, avec l'annonce récente d'une série d'extensions et d'autres moyens d'utiliser Bard efficacement.

Au fil des ans, les progrès de l'IA ont permis d'améliorer nos produits, au bénéfice des utilisateurs, des créateurs de contenu web et de l'écosystème web dans son ensemble. La croissance et le développement rapides des outils d'IA générative aident les éditeurs de sites web à entrer en contact avec leur public plus facilement et de manière plus créative que jamais. Nous nous engageons à développer l'IA de manière responsable, en nous appuyant sur nos principes en matière d'IA et en respectant notre engagement en matière de protection de la vie privée des consommateurs. Toutefois, les éditeurs de sites web nous ont également fait part de leur souhait de disposer d'un plus grand choix et d'un meilleur contrôle sur la manière dont leur contenu est utilisé dans le cadre des nouveaux cas d'utilisation de l'IA générative.

Nous annonçons aujourd'hui Google-Extended, un nouveau contrôle que les éditeurs de sites web peuvent utiliser pour déterminer si leurs sites contribuent à améliorer les API génératives de Bard et Vertex AI, y compris les futures générations de modèles qui alimentent ces produits. En utilisant Google-Extended pour contrôler l'accès au contenu d'un site, un administrateur de site web peut choisir d'aider ces modèles d'IA à devenir plus précis et plus performants au fil du temps.

La mise à disposition de contrôles simples et évolutifs, tels que Google-Extended, par l'intermédiaire de robots.txt est une étape importante dans la mise en place de la transparence et du contrôle que, selon nous, tous les fournisseurs de modèles d'IA devraient mettre à disposition. Toutefois, à mesure que les applications d'IA se développent, les éditeurs de sites web seront confrontés à la complexité croissante de la gestion des différentes utilisations à l'échelle. C'est pourquoi nous nous engageons à collaborer avec les communautés du web et de l'IA afin d'explorer d'autres approches lisibles par machine en matière de choix et de contrôle pour les éditeurs de sites web. Nous espérons pouvoir vous en dire plus prochainement

Source : Google

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Google suggère de mettre à jour le fichier Robots.txt pour les cas d'utilisation de l'IA émergente selon Danielle Romain, vice-présidente de Google chargée de la confiance.

Une plainte dénonce le pillage des données publiques par Google pour entraîner son chatbot Bard. Des données d'enfants, d'artistes et d'écrivains prises sans consentement

OpenAI dévoile GPTBot, un bot qui explore les données du Web public pour l'apprentissage de l'IA pour répondre aux plaintes concernant l'utilisation de données de sites Web

**Jade Emy** · 29/09/2023, 16h19

26 % des 100 premiers sites web ont bloqué GPTBot, dont la plateforme Pinterest et les sites populaires tels que Web MD et dictionary.com.

Pour qu'OpenAI puisse fournir un service décent par l'intermédiaire de son service phare ChatGPT, elle doit extraire une grande quantité de données de tout l'Internet. Pour ce faire, elle utilise un robot d'exploration connu sous le nom de GPTBot. Malgré cela, il s'avère que plus d'un quart des 100 premiers sites web du monde ont bloqué le robot pour qu'il ne puisse pas récupérer leurs données.

Plus précisément, 26 de ces 100 premiers sites web ont fermé leurs portes à GPTBot, rendant ainsi plus difficile pour OpenAI de mettre la main sur les données dont elle a besoin. Si nous élargissons le champ d'application aux 1 000 premiers sites web, 242 d'entre eux ont décidé d'interdire complètement l'accès à GPTBot. Cela signifie que cette proportion est à peu près la même quel que soit le nombre de sites ajoutés à l'équation.

Nom : 2.png
Affichages : 848
Taille : 811,7 Ko

Il y a un mois à peine, seuls 69 des 1 000 premiers sites Web avaient pris cette décision radicale après avoir examiné et pris en compte tous les éléments. Cela signifie que le nombre de sites web qui ne veulent plus se conformer à la loi a augmenté de 250 %. GPTBot est également bloqué dans une proportion beaucoup plus importante que d'autres scrapers tels que CCBot et Anthropic AI.

Il est important de noter que certaines des plus grandes marques du monde font partie de cette liste. Il s'agit notamment de la plateforme de médias sociaux Pinterest, de sites d'information appartenant à The Guardian, USA Today, Washington Post et CBS News, ainsi que de sites populaires tels que Web MD et dictionary.com.

Les sites web agissent ainsi parce que ChatGPT ne fournit aucune référence ou source pour les informations qu'il fournit. Cela peut être préjudiciable, car c'est le genre de chose qui pourrait finir par priver ces sites web des attributions dont ils ont besoin pour les informations qu'ils créent de leur propre chef.

Nom : 2.jpg
Affichages : 746
Taille : 103,4 Ko

Source : Originality.ai

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI dévoile GPTBot, un bot qui explore les données du Web public pour l'apprentissage de l'IA, pour répondre aux plaintes concernant l'utilisation de données de sites Web

Google indique qu'il va utiliser tout ce que vous allez publier en ligne comme données d'entraînement de son IA dans une mise à jour de sa politique de confidentialité

Le New York Times dit non à l'utilisation de son contenu comme données d'entraînement pour une IA sans son accord et menace de poursuites judiciaires

**_toma_** · 01/10/2023, 12h29

Il y a un mois à peine, seuls 69 des 1 000 premiers sites Web avaient pris cette décision radicale après avoir examiné et pris en compte tous les éléments. Cela signifie que le nombre de sites web qui ne veulent plus se conformer à la loi a augmenté de 250 %.

Se conformer à la loi ? Quelle loi ?