Google estime que le contenu généré automatiquement par une IA est contraire à ses directives aux webmasters

**Stéphane le calme** · 11/04/2022, 08h23

Google estime que le contenu généré automatiquement par une IA est contraire à ses directives aux webmasters
et est considéré comme du spam

John Mueller, Search Advocate pour le compte de Google, affirme que le contenu généré automatiquement avec des outils d'écriture IA est considéré comme du spam, selon les directives du moteur de recherche pour les webmasters.

Ce sujet a été abordé lors d'un récent hangout Google Search Central SEO pendant les heures de bureau en réponse à une question sur les outils d'écriture GPT-3 AI.

GPT est l'abréviation de Generative Pre-training Transformer (GPT), un modèle de langage écrit par Alec Radford et publié en 2018 par OpenAI, le laboratoire de recherche en intelligence artificielle d'Elon Musk. Il s'agit d'un algorithme de langage à usage général qui utilise l'apprentissage automatique pour traduire du texte, répondre à des questions et écrire du texte de manière prédictive. Il fonctionne en analysant une séquence de mots, de texte ou d'autres données, puis en développant ces exemples pour produire une sortie entièrement originale sous la forme d'un article ou d'une image. Il s'appuie sur un modèle génératif de langage (où deux réseaux de neurones se perfectionnent par compétition).

Il y a un débat dans la communauté SEO sur l'utilisation des outils GPT-3 et s'ils sont acceptables du point de vue de Google. Mueller affirme que le contenu écrit par AI relève de la catégorie du contenu généré automatiquement, ce qui pourrait entraîner une pénalité manuelle. Cependant, les systèmes de Google peuvent ne pas avoir la capacité de détecter le contenu généré par l'IA sans l'aide d'examinateurs humains.

Nom : john.png
Affichages : 3843
Taille : 386,0 Ko

Le contenu généré automatiquement est contraire aux directives de Google aux webmasters

Quels que soient les outils utilisés pour le créer, le contenu écrit par des machines est considéré comme généré automatiquement.

Comme Mueller s'empresse de le souligner, la position de Google sur le contenu généré automatiquement a toujours été claire :

« Pour nous, ceux-ci tomberaient essentiellement dans la catégorie du contenu généré automatiquement, ce que nous avons dans les consignes aux webmasters depuis presque le début.

« Les gens génèrent automatiquement du contenu de différentes manières. Et pour nous, si vous utilisez des outils d'apprentissage automatique pour générer votre contenu, c'est essentiellement la même chose que si vous ne faisiez que mélanger des mots, ou rechercher des synonymes, ou faire appel à des astuces de traduction que les gens avaient l'habitude de faire. Ce genre de choses.

« Je soupçonne que la qualité du contenu est peut-être un peu meilleure que celle des outils de la très vieille école, mais pour nous, il s'agit toujours de contenu généré automatiquement, ce qui signifie que pour nous, il est toujours contraire aux directives aux webmasters. Nous considérons donc qu'il s'agit de spam ».

Les réponses de John Mueller

Google peut-il détecter le contenu généré par l'IA ?

Une question a été posée concernant la capacité de Google à identifier le contenu écrit par des outils d'apprentissage automatique. Google peut-il comprendre la différence entre un contenu écrit par des humains et un contenu écrit par des machines ?

Mueller ne prétend pas que Google détecte automatiquement le contenu écrit par l'IA. Cependant, si l'équipe antispam de Google le trouve, elle est autorisée à prendre des mesures.

« Je ne peux pas prétendre cela. Mais pour nous, si nous voyons que quelque chose est généré automatiquement, alors l'équipe de spam Web peut certainement prendre des mesures à ce sujet.

« Et je ne sais pas comment l'avenir va évoluer dans ce domaine, mais j'imagine que, comme avec n'importe quelle autre de ces technologies, il y aura un peu un jeu du chat et de la souris, où parfois les gens feront quelque chose et ils s'en sortiront, puis l'équipe webspam va rattraper son retard et résoudre ce problème à plus grande échelle.

« D'après notre recommandation, nous le considérons toujours comme un contenu généré automatiquement. Je pense qu'avec le temps, c'est peut-être quelque chose qui évoluera en ce sens que cela deviendra davantage un outil pour les gens. Un peu comme si vous utilisiez la traduction automatique comme base pour créer une version traduite d'un site Web, mais que vous y ajoutiez toujours des retouches manuelles.

« Et peut-être qu'avec le temps, ces outils d'intelligence artificielle évolueront dans le sens où vous les utiliserez pour être plus efficaces dans votre écriture ou pour vous assurer que vous écrivez correctement, comme les outils de vérification de l'orthographe et de la grammaire, qui sont également basés sur apprentissage automatique. Mais je ne sais pas ce que l'avenir nous réserve ».

Mueller précise que Google ne tient pas compte de la manière dont les outils d'écriture de l'IA sont utilisés. Les utiliser à quelque titre que ce soit est considéré comme du spam, ajoute-t-il.

« Actuellement, tout va à l'encontre des directives des webmasters. Donc, de notre point de vue, si nous devions tomber sur quelque chose comme ça, si l'équipe de spam devait le remarquer, ils le verraient comme du spam ».

Quelle est l'implication pour les webmasters et les sites Web ?

Miranda Miller estime pour sa part que « le plus gros point à retenir de cette session de questions-réponses est que les algorithmes de Google ne sont pas capables de détecter automatiquement le contenu généré par des modèles de langage tels que GPT-3 ». « Le message ici est que si Google détecte un contenu généré automatiquement, l'équipe de spam Web pourrait prendre des mesures. Mais nous ne parlons pas des spinners d'articles de 2003 ».

Et de continuer en disant que « l'intelligence artificielle est utilisée par les médias, les universités et d'autres organisations pour l'automatisation de la recherche et les références croisées, l'exploration et la classification du contenu dans de nombreuses langues afin d'identifier les tendances émergentes, la génération de résumés d'articles, la vérification des faits, le traitement des données et même l'écriture d'articles complets ».

Concernant la génération d'articles complets, en 2020, Liam Porr, qui était alors étudiant à l’université de Californie à Berkeley, a généré des articles par IA en utilisant GPT-3. Peu de personnes ont remarqué que l'article généré était l'œuvre d'une IA.

GPT-3 a été formé sur un énorme corpus de textes qu’il exploite pour des régularités statistiques. Elles sont inconnues des humains, mais elles sont stockées sous forme de milliards de connexions pondérées entre les différents nœuds du réseau neuronal de GPT-3. Il est important de noter qu'aucune intervention humaine n'est nécessaire dans ce processus : le programme cherche et trouve des modèles sans aucune indication, qu'il utilise ensuite pour compléter les invites textuelles. L’algorithme fait cela avec une précision jugée sans précédent.

Par exemple, si vous entrez le mot « feu » dans GPT-3, le programme sait, grâce aux poids de son réseau, que les mots « camion » et « alarme » ont beaucoup plus de chances de suivre que « lucide » ou « elfe ». Dès l’annonce de GPT-3, beaucoup ont spéculé sur la manière dont il pourrait affecter la production de contenu.

« L'Associated Press a commencé à utiliser l'IA pour la génération d'histoires en 2014. Mettre l'IA au travail dans la création de contenu n'est pas nouveau, et le facteur le plus important ici est son application intelligente », a déclaré Miller, notant que l'utilisation de l'IA peut aider les créateurs de contenu à surmonter les barrières du langage et de l'alphabétisation, améliorer la qualité de leur écriture, et plus encore.

« Ce sont de bons résultats. Ne serait-il pas étrange que Google interdise l'utilisation de l'IA par les webmasters et les créateurs de contenu dans le but d'améliorer l'expérience utilisateur alors qu'eux-mêmes l'utilisent si intensément ? ».

Source : entretien avec John Mueller (vidéo dans le texte)

Et vous ?

Que pensez-vous de la perspective de Google qui affirme que le contenu généré automatiquement avec des outils d'écriture IA est considéré comme du spam ?

Voir aussi :

Un faux blog d'un étudiant généré par GPT-3, l'IA de traitement du langage naturel d'OpenAI, a trompé des dizaines de milliers de personnes

Open AI propose en bêta privée son modèle de traitement du langage naturel GPT-3, ses applications vont de la génération de texte cohérent à la génération de code en passant par la création d'apps

OpenAI lance une API multitâche destinée à ses modèles d'IA basés sur du texte, qu'il va commencer à commercialiser

Microsoft vient de construire un supercalculateur de classe mondiale exclusivement pour OpenAI, afin de former de très grands modèles d'intelligence artificielle

Une loi de Moore pour l'intelligence artificielle ? Selon OpenAI, les algorithmes d'IA suivent une courbe d'évolution qui pourrait être décrite comme l'évolution prévue par la loi de Moore