Une énorme fuite d'un document sur Google Search révèle les rouages de son algorithme de classement

**Stéphane le calme** · 29/05/2024, 20h04

Google confirme l'authenticité des documents sur son moteur de recherche ayant fait l'objet d'une fuite,
certains détails remettent en question l'exactitude des déclarations publiques de Google

mise à jour du 30/05/2024 : Google confirme l'authenticité des documents sur son moteur de recherche ayant fait l'objet d'une fuite

Après avoir précédemment refusé de commenter, Google a confirmé l'authenticité de 2 500 documents internes ayant fait l'objet d'une fuite, qui donnent un aperçu de ses pratiques en matière de collecte de données et de son algorithme de classement des recherches. Les documents offrent une vision unique, bien que floue, de l'algorithme de classement des recherches de Google. « Nous mettons en garde contre les hypothèses inexactes sur la recherche basées sur des informations hors contexte, obsolètes ou incomplètes », a déclaré Davis Thompson, porte-parole de Google.

Google, le moteur de recherche le plus utilisé au monde, a toujours gardé une grande partie de son algorithme de classement secret. Cependant, récemment, une fuite massive de documents internes a donné un aperçu sans précédent du fonctionnement interne de Google Search. Ces documents ne contiennent pas de code ou autre, et décrivent plutôt comment utiliser l'API Content Warehouse de Google qui est probablement destinée à un usage interne uniquement ; la documentation divulguée comprend de nombreuses références à des systèmes et des projets internes. Bien qu'il existe une API Google Cloud similaire qui est déjà publique, ce qui s'est retrouvé sur GitHub va bien au-delà, semble-t-il.

Les fichiers sont remarquables pour ce qu'ils révèlent des éléments que Google considère comme importants lorsqu'il classe les pages web en fonction de leur pertinence, une question d'intérêt permanent pour toute personne impliquée dans les activités de référencement et/ou pour toute personne exploitant un site web et espérant que Google l'aidera à gagner du trafic.

Une série de documents décrivant la manière dont Google classe les résultats de recherche est apparue en ligne, probablement à la suite d'une publication accidentelle par un robot interne. La documentation divulguée décrit une ancienne version de l'API Content Warehouse de Google et donne un aperçu du fonctionnement interne de Google Search.

La documentation semble avoir été publiée par inadvertance dans un dépôt accessible au public sur GitHub, aux alentours du 13 mars, par l'outil automatisé yoshi-code-bot. Cette automatisation a ajouté une licence open source Apache 2.0 à la livraison, comme c'est le cas pour la documentation publique de Google. Un commit de suivi le 7 mai a tenté d'annuler la fuite.

L'analyse d'experts en référencement

Rand Fishkin, qui a travaillé dans le domaine du référencement pendant plus de dix ans, affirme qu'une source lui a communiqué 2 500 pages de documents dans l'espoir que la divulgation de cette fuite contredirait les « mensonges » que les employés de Google ont racontés sur le fonctionnement de l'algorithme de recherche. Les documents décrivent l'API de recherche de Google et précisent les informations auxquelles les employés ont accès, selon Fishkin.

« Le dimanche 5 mai, j'ai reçu un courriel d'une personne affirmant avoir eu accès à une fuite massive de documentation sur les API au sein de la division Recherche de Google. Le courriel affirmait également que ces documents avaient été confirmés comme étant authentiques par d'anciens employés de Google, et que ces ex-employés et d'autres personnes avaient partagé des informations supplémentaires et privées sur les opérations de recherche de Google.

« Nombre de ces affirmations contredisent directement les déclarations publiques faites par les dirigeants de Google au fil des ans, notamment le refus répété de l'entreprise d'utiliser des signaux d'utilisateurs centrés sur le clic, le refus de prendre en compte les sous-domaines séparément dans les classements, le refus de mettre en place un bac à sable pour les nouveaux sites web, le refus de collecter ou de prendre en compte l'âge d'un domaine, et bien d'autres choses encore ».

Les détails partagés par Fishkin sont denses et techniques, probablement plus lisibles pour les développeurs et les experts en référencement que pour les profanes. En outre, le contenu de la fuite ne prouve pas nécessairement que Google utilise les données et les signaux spécifiques qu'il mentionne pour le classement des recherches. La fuite décrit plutôt les données que Google recueille auprès des pages web, des sites et des internautes, et donne des indications indirectes aux experts en référencement sur ce qui semble intéresser Google, comme l'a écrit Mike King, expert en référencement, dans son aperçu des documents.

Nom : google.png
Affichages : 17144
Taille : 242,7 Ko

« Allons droit au but. La documentation interne de l'API Content Warehouse de Google Search a fait l'objet d'une fuite. Les microservices internes de Google semblent refléter ce que Google Cloud Platform offre et la version interne de la documentation pour le Document AI Warehouse obsolète a été accidentellement publiée publiquement dans un dépôt de code pour la bibliothèque client. La documentation de ce code a également été capturée par un service de documentation automatisé externe.

« D'après l'historique des modifications, cette erreur de dépôt de code a été corrigée le 7 mai, mais la documentation automatisée est toujours en ligne. Afin de limiter la responsabilité potentielle, je n'y ferai pas référence ici, mais comme tout le code de ce dépôt a été publié sous la licence Apache 2.0, quiconque l'a trouvé s'est vu accorder un large éventail de droits, y compris la possibilité de l'utiliser, de le modifier et de le distribuer de toute façon.

« J'ai examiné les documents de référence de l'API et les ai mis en contexte avec d'autres fuites antérieures de Google et le témoignage antitrust du DOJ. Je combine cela avec les recherches approfondies sur les brevets et les livres blancs effectuées pour mon prochain livre, The Science of SEO (La science du référencement). Bien que la documentation que j'ai examinée ne contienne aucun détail sur les fonctions de notation de Google, elle contient une multitude d'informations sur les données stockées pour le contenu, les liens et les interactions avec les utilisateurs. On y trouve également des descriptions plus ou moins détaillées (allant de décevantes à étonnamment révélatrices) des caractéristiques manipulées et stockées.

« On serait tenté de les appeler globalement "facteurs de classement", mais ce serait imprécis. Nombre d'entre eux, voire la plupart, sont des facteurs de classement, mais beaucoup ne le sont pas. Ce que je vais faire ici, c'est mettre en contexte certains des systèmes et fonctionnalités de classement les plus intéressants (du moins, ceux que j'ai pu trouver au cours des premières heures d'examen de cette fuite massive) en me basant sur mes recherches approfondies et sur les choses que Google nous a dites/répétées au fil des ans ».

Les documents divulgués abordent des sujets tels que le type de données que Google collecte et utilise, les sites que Google privilégie pour des sujets sensibles tels que les élections, la manière dont Google traite les petits sites web, et bien plus encore. Selon Fishkin et King, certaines informations contenues dans les documents semblent être en contradiction avec les déclarations publiques des représentants de Google.

« Le mot "mensonge" est un peu fort, mais c'est le seul mot exact à utiliser ici », estime King. « Si je ne reproche pas nécessairement aux représentants publics de Google de protéger leurs informations propriétaires, je m'insurge contre leurs efforts visant à discréditer activement les personnes du monde du marketing, de la technologie et du journalisme qui ont présenté des découvertes reproductibles ».

Certains détails des documents divulgués remettent en question l'exactitude des déclarations publiques de Google

L'algorithme de recherche secret de Google a donné naissance à toute une industrie de spécialistes du marketing qui suivent de près les directives publiques de Google et les exécutent pour des millions d'entreprises à travers le monde. Ces tactiques omniprésentes et souvent agaçantes ont donné lieu à un discours général selon lequel les résultats de recherche de Google sont de plus en plus mauvais, encombrés de déchets que les exploitants de sites web se sentent obligés de produire pour que leurs sites soient vus. En réponse aux rapports précédents sur les tactiques de référencement, les représentants de Google se rabattent souvent sur une défense familière : ce n'est pas ce que disent les directives de Google.

Mais certains détails des documents divulgués remettent en question l'exactitude des déclarations publiques de Google concernant le fonctionnement de la recherche.

« De nombreuses affirmations [d'Azimi] [dans un courriel décrivant la fuite] contredisent directement les déclarations publiques faites par les Googlers au fil des ans, en particulier le refus répété de l'entreprise d'utiliser des signaux d'utilisateur centrés sur le clic, le refus de considérer les sous-domaines séparément dans les classements, le refus d'un bac à sable pour les sites Web plus récents, le refus de collecter ou de prendre en compte l'âge d'un domaine, et plus encore », a expliqué Fishkin, de SparkToro, dans un rapport.

Dans son billet sur les documents, King, d'iPullRank, a souligné une déclaration faite par John Mueller, défenseur de la recherche chez Google, qui a déclaré dans une vidéo que « nous n'avons rien de tel qu'un score d'autorité de site web » - une mesure permettant de savoir si Google considère qu'un site fait autorité et mérite donc un classement plus élevé dans les résultats de la recherche.

Rendez-vous à 42:56

Mais King note que les documents révèlent que, dans le cadre des signaux de qualité compressés que Google stocke pour les documents, un score « siteAuthority » peut être calculé.

Plusieurs autres révélations sont citées dans les deux billets.

L'une d'entre elles concerne l'importance des clics - et des différents types de clics (bons, mauvais, longs, etc.) - pour déterminer le classement d'une page web. Au cours du procès antitrust opposant les États-Unis à Google, Google a reconnu qu'il considérait les mesures de clics comme un facteur de classement dans la recherche sur le web.

Un exemple cité par Fishkin et King est la question de savoir si les données de Google Chrome sont utilisées dans le classement. Les représentants de Google ont indiqué à plusieurs reprises qu'ils n'utilisaient pas les données de Chrome pour classer les pages, mais Chrome est spécifiquement mentionné dans les sections sur la façon dont les sites web apparaissent dans le moteur de recherche. Google utilise donc les sites web consultés dans Chrome comme signal de qualité, comme le montre le paramètre ChromeInTotal dans l'API. « L'un des modules liés aux scores de qualité des pages comporte une mesure au niveau du site des vues à partir de Chrome », selon King.

En outre, les documents indiquent que Google prend en compte d'autres facteurs tels que la fraîcheur du contenu, la paternité, le fait qu'une page soit liée au thème central d'un site, l'alignement entre le titre de la page et le contenu, et « la taille de police moyenne pondérée d'un terme dans le corps du document ».

Conclusion

Bien que ces documents ne constituent pas une preuve irréfutable, ils donnent un aperçu approfondi et non filtré d'un système de boîte noire très bien gardé. Le procès antitrust intenté par le gouvernement américain à l'encontre de Google - qui tourne autour de la recherche - a également conduit à la publication de documents internes, ce qui permet de mieux comprendre le fonctionnement du principal produit de l'entreprise.

Le manque de transparence de Google sur le fonctionnement du moteur de recherche a conduit les sites web à se ressembler, les spécialistes du référencement essayant de déjouer les plans de Google en se basant sur les conseils de l'entreprise. Fishkin dénonce également les publications qui soutiennent avec crédulité les affirmations publiques de Google sans procéder à une analyse plus approfondie.

« Historiquement, certaines des voix les plus fortes et des éditeurs les plus prolifiques de l'industrie de la recherche ont été heureux de répéter sans esprit critique les déclarations publiques de Google. Ils écrivent des titres tels que « Google dit que XYZ est vrai », plutôt que « Google affirme XYZ ; les preuves suggèrent le contraire »", écrit Fishkin. « S'il vous plaît, faites mieux. Si cette fuite et le procès du ministère de la Justice ne peuvent créer qu'un seul changement, j'espère que c'est celui-là ».

La fuite de ces documents internes est un événement majeur pour la communauté SEO et pour tous ceux qui s’intéressent au fonctionnement de Google Search. Alors que nous continuons à analyser ces informations, il est clair que l’algorithme de classement de Google est plus complexe et nuancé que ce que l’entreprise a précédemment laissé entendre.

Sources : Rand Fishkin, Mike King, yoshi-code-bot, USA v. Google (au format PDF)

Et vous ?

Quelle est votre réaction initiale à la fuite de ces documents internes ? Êtes-vous surpris par les informations révélées ? Comment cela pourrait-il affecter votre perception de Google Search ?

Comment pensez-vous que ces révélations affecteront les professionnels du référencement (SEO) ? Quelles sont les implications pour les experts en référencement ? Des ajustements qu’ils devraient apporter à leurs stratégies ?

Quels attributs de classement pensez-vous être les plus importants ? Quels sont les facteurs qui pourraient avoir le plus d’impact sur le classement des pages et pourquoi ?

Comment Google pourrait-il améliorer la transparence autour de son algorithme de classement ? Quels sont les moyens pour Google de communiquer plus efficacement sur son fonctionnement interne tout en protégeant ses secrets commerciaux ?

Quelles sont les implications plus larges de cette fuite de documents pour la société et la technologie ? Quelles conséquences potentielles sur la confiance dans les grandes entreprises technologiques et sur la régulation future ?

Une énorme fuite d'un document sur Google Search révèle les rouages de son algorithme de classement

Vue hybride

Discussions similaires

Partager

Partager