IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    8 429
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 8 429
    Points : 197 304
    Points
    197 304
    Par défaut Une fuite massive de code Yandex révèle les facteurs de classement du moteur de recherche russe
    Une fuite massive de code Yandex révèle les facteurs de classement du moteur de recherche russe,
    ainsi qu'un code source jonché de langage raciste

    Près de 45 Go de fichiers de code source, prétendument volés par un ancien employé, ont révélé les fondements des nombreuses applications et services de la grande enseigne technologique russe Yandex. Ils ont également révélé des facteurs de classement clef pour le moteur de recherche de Yandex, du genre presque jamais révélé au public.

    Les « sources git de Yandex » ont été publiées sous forme de fichier torrent le 25 janvier et montrent des fichiers apparemment pris en juillet 2022 et remontant à février 2022. L'ingénieur logiciel Arseniy Shestakov affirme qu'il a vérifié auprès des employés actuels et anciens de Yandex que certaines archives « à coup sûr contiennent du code source moderne pour les services de l'entreprise »".

    La société de technologie russe Yandex a présenté des excuses après la découverte d'insultes raciales dans ce code source divulgué, assurant qu'il n'y a pas eu de violation de données. Plusieurs références à des insultes raciales, y compris le « mot en N », ont été trouvées dans le code source de l'entreprise la semaine dernière.


    Un référentiel de code source Yandex qui aurait été volé par un ancien employé de la société technologique russe a été divulgué sous forme de torrent sur un forum de piratage populaire. L'individu derrière la fuite a publié un lien magnétique qu'il prétend être des « sources Yandex git » consistant en 44,7 Go de fichiers volés à l'entreprise en juillet 2022. Ces référentiels de code contiendraient tout le code source de l'entreprise en plus des règles antispam.

    Nom : yandex.png
Affichages : 2062
Taille : 90,1 Ko

    L'ingénieur logiciel Arseniy Shestakov a analysé le référentiel Yandex Git divulgué et a déclaré qu'il contient des données techniques et du code sur les produits suivants :
    • moteur de recherche et bot d'indexation Yandex ;
    • Yandex Maps ;
    • Alice (assistant IA) ;
    • Yandex Taxi ;
    • Yandex Direct (service d'annonces) ;
    • Yandex Mail ;
    • Yandex Disk (service de stockage cloud) ;
    • Yandex Market ;
    • Yandex Travel (plateforme de réservation de voyages) ;
    • Yandex360 (service d'espaces de travail) ;
    • Yandex Cloud ;
    • Yandex Pay (service de traitement des paiements) ;
    • Yandex Metrika (analyse internet).

    Shestakov a également partagé une liste de répertoires des fichiers divulgués sur GitHub pour ceux qui veulent voir quel code source a été volé.

    « Il existe au moins quelques clefs API, mais elles ne sont probablement utilisées que pour tester le déploiement », a déclaré Shestakov à propos des données divulguées.

    Dans un communiqué, Yandex a déclaré que ses systèmes n'avaient pas été piratés et qu'un ancien employé avait divulgué le référentiel de code source :

    Citation Envoyé par Yandex
    Yandex n'a pas été piraté. Notre service de sécurité a trouvé des fragments de code d'un référentiel interne dans le domaine public, mais le contenu diffère de la version actuelle du référentiel utilisé dans les services Yandex.

    Un dépôt est un outil pour stocker et travailler avec du code. Le code est utilisé de cette manière en interne par la plupart des entreprises.

    Les référentiels sont nécessaires pour travailler avec du code et ne sont pas destinés au stockage des données personnelles des utilisateurs. Nous menons une enquête interne sur les raisons de la diffusion publique de fragments de code source, mais nous ne voyons aucune menace pour les données des utilisateurs ou les performances de la plateforme.
    Les dossiers datent notamment de février 2022, lorsque la Russie a lancé une invasion à grande échelle de l'Ukraine. Un ancien cadre de Yandex a déclaré que la fuite était « politique » et a noté que l'ancien employé n'avait pas essayé de vendre le code aux concurrents de Yandex. Le code anti-spam n'a pas non plus été divulgué.

    Bien qu'il ne soit pas clair s'il y a des implications sécuritaires ou structurelles de la révélation du code source de Yandex, la fuite de 1 922 facteurs de classement dans l'algorithme de recherche de Yandex fait certainement des vagues. Le consultant en référencement Martin MacDonald a décrit la fuite sur Twitter comme « probablement la chose la plus intéressante qui se soit produite dans le référencement depuis des années ». Dans un fil de discussion détaillant certains des facteurs les plus notables, le chercheur Alex Buraks suggère « qu'il existe également de nombreuses informations utiles pour le référencement Google ».

    Yandex, le quatrième moteur de recherche en volume, emploie prétendument plusieurs anciens employés de Google. Yandex suit de nombreux facteurs de classement de Google, identifiables dans son code, et concurrence fortement Google. La division russe de Google a récemment déposé son bilan après avoir perdu ses comptes bancaires et ses services de paiement. Buraks note que le premier facteur de la liste des facteurs de classement de Yandex est "PAGE_RANK", qui est apparemment lié à l'algorithme fondamental créé par les co-fondateurs de Google.

    Comme détaillé par Buraks (dans deux fils), le moteur de Yandex favorise les pages qui :
    • ne sont pas trop vieilles ;
    • ont beaucoup de trafic organique (visiteurs uniques) et moins de trafic lié à la recherche ;
    • ont moins de chiffres et de barres obliques dans leur URL ;
    • ont un code optimisé plutôt qu'une hard pessimization, avec un "PR=0" ;
    • sont hébergés sur des serveurs fiables ;
    • sont des pages Wikipédia ou des liens provenant de Wikipédia ;
    • sont hébergés ou liés à partir de pages de niveau supérieur sur un domaine ;
    • ont des mots-clefs dans leur URL (jusqu'à trois).

    Vous pouvez rechercher et cliquer sur tous les facteurs sur l'outil de recherche compilé de Rob Ousbey (en bas de page). Vous remarquerez peut-être que près de 1 000 des facteurs de classement ont la balise "TG_DEPRECATED" et plus de 200 sont répertoriés comme "TG_UNUSED". Parce que le code date de février 2022 et a été saisi en juillet 2022, la recherche de Yandex a certainement changé depuis. Mais la fuite fournit un aperçu rare de la façon dont les classements de recherche sont assemblés sur un site qui dessert l'un des plus grands pays du monde.

    Yandex a déjà vu son code de moteur de recherche disparaître en 2015, lorsqu'un ancien employé a tenté de le vendre sur le marché noir pour 28 000 $ afin de financer sa propre startup. Le chiffre étonnamment bas du code principal du produit principal de Yandex suggérait qu'il n'était pas conscient de sa valeur réelle. Cet employé a été condamné à deux ans de prison avec sursis, et le code n'a jamais été vu publiquement.

    Un code source jonché de langage raciste

    La société de technologie russe Yandex a présenté des excuses après la découverte d'insultes raciales dans le code source divulgué. Plusieurs références à des insultes raciales ont été trouvées dans le code source de l'entreprise.

    Un chercheur a d'abord révélé l'utilisation d'une terminologie offensante dans une série de messages sur Twitter le 26 janvier, suscitant de vives critiques.

    Dans un communiqué, Yandex a déclaré qu'une enquête initiale a montré que le code divulgué « semble être d'anciens fragments différents de la version actuelle du référentiel de l'entreprise ». La société a ajouté que le code divulgué « n'aurait jamais affecté aucun des services de la société ».

    « Nous regrettons profondément que ces mots aient figuré dans nos codes internes », a déclaré Yandex. « C'est inacceptable et une violation flagrante de notre éthique d'entreprise ». « Nous menons actuellement un examen interne pour mieux comprendre comment cela s'est passé, et nous prendrons les mesures appropriées, notamment pour nous assurer que cela ne se reproduise plus ».

    Des insultes raciales ont été parsemées dans la base de code Git divulguée de Yandex. Ils ont été utilisés dans les noms de fonctions et de variables, les messages imprimés et d'autres endroits dans les fichiers de configuration.

    Les développeurs utilisent fréquemment des termes ou des noms spécifiques pour permettre aux autres développeurs de comprendre quelle fonction ou action une certaine ligne de code exécute.

    L'utilisation de termes faciles à lire est une approche courante qui permet de réduire le temps nécessaire aux ingénieurs pour éventuellement modifier ou mettre à jour le code.

    Dans ce cas, les développeurs de Yandex semblent avoir substitué un terme générique à une fonction avec un langage offensant.

    La raison exacte pour laquelle ces termes ont été inclus n'est pas claire. Cependant, l'utilisation d'un langage offensant dans le code est une violation à la fois des meilleures pratiques et, comme Yandex l'a souligné dans sa déclaration, de son code d'éthique.

    Yandex n'a pas fourni d'informations supplémentaires sur la raison pour laquelle le « mot en N » a été utilisé dans ce cas, mais des observateurs ont remarqué qu'il semblait également avoir été utilisé pour remplacer les « travailleurs » dans diverses parties de sa base de code.

    Le bon mot en informatique

    Si Yandex a reconnu l'emploi d'un langage offensant dans son code, cela rappelle le combat qui se menait en ligne pour modifier un certain nombre de mots utilisés de façon récurrente en informatique. Pris dans le contexte, le langage n'était généralement pas considéré comme offensant, ce qui lui a d'ailleurs permis d'être présent pendant si longtemps. Cependant, suite à la mort tragique de Georges Floyd en 2020, l'onde de choc appelant à des réformes a atteint le domaine de l'informatique.

    Par exemple, l'agence de cybersécurité britannique a estimé que les expressions « liste blanche » et « liste noire » véhiculent des stéréotypes raciaux et a décidé de les bannir et d'en adopter d'autres plus inclusives :

    « Il est assez courant de dire liste blanche et liste noire pour décrire les choses souhaitables et indésirables en matière de cybersécurité », explique le National Cyber Security Centre (NCSC). « Cependant, il y a un problème avec la terminologie. Cela n'a de sens que si vous assimilez le blanc à "bon, autorisé, sûr" et le noir à "mauvais, dangereux, interdit". Cela pose des problèmes évidents. Ainsi, au nom de la lutte contre le racisme dans le domaine de la cybersécurité, nous éviterons à l'avenir cette formulation péjorative et désinvolte sur notre site web. Non, ce n'est pas le plus grand problème au monde ; mais pour emprunter à un slogan venu d'ailleurs : chaque petit geste compte.Vous ne voyez peut-être pas en quoi cela est important. Si vous n'êtes pas affecté par les stéréotypes raciaux, alors estimez vous chanceux. Pour certains de vos collègues (et futurs collègues potentiels) par contre, c'est vraiment un changement qui vaut la peine », ajoute-t-il. À la place, le NCSC utilise les expressions « liste d'autorisation » et « liste de refus », plus claires, moins ambiguës et surtout plus inclusives.

    Comme autre exemple d'illustration de ce combat, nous pouvons citer Python qui a décidé de supprimer les termes "master/slave" de sa documentation et sa base de code en 2018. Le projet Python n'est pas le seul à avoir pris cette direction dans le monde informatique. Il ne fait que rejoindre des projets comme Django (2014), CouchDB (2014), Drupal (2014) et Redis (2017). Tous avaient le même argument : bien que ces termes aient été utilisés depuis des décennies, ils peuvent avoir des significations à caractère raciste, entre autres, pour les utilisateurs. Il serait donc bon de les éviter.

    « Le mot "slave" a des connotations négatives (bien que cela puisse ou non être pertinent dans la dénomination d'un terme technique), y compris l'histoire de l'esclavage sur plusieurs siècles au bénéfice des puissances coloniales européennes, les travailleurs pénitentiaires aujourd'hui forcés de travailler dans des conditions parfois similaires à l'esclavage, les jeunes filles vendues dans l'esclavage sexuel dans de nombreuses régions du monde aujourd'hui », expliquait le projet Drupal. La connotation sexiste de ces termes avait particulièrement été citée lorsque la question était débattue pour le projet Django. Une ingénieure DevOps s'était en effet plainte que ses collègues lui faisaient souvent des blagues en utilisant les termes "master" et "slave".

    GitHub a décidé de faire usage du terme « main » en lieu et place de « master » pour désigner la branche par défaut des projets

    En juillet 2020, Linus Torvalds a procédé à l’intégration d’un guide terminologique à l’arborescence du projet Linux. Le document dénommé "Linux kernel inclusive technology" liste des termes comme master, slave, blacklist et whitelist comme étant à éviter dans le futur par la chaîne des contributeurs au noyau. Les modifications du code existant sont également dans le viseur, mais des exceptions sont prévues pour ce qui est de la maintenance d'une API d'espace utilisateur ou lors de la mise à jour d'un code pour une spécification qui rend ces termes obligatoires.

    Cette inclusion fait suite à la proposition formulée par l'ingénieur principal d'Intel – Dan Williams. Elle bénéficiait déjà du soutien d’autres mainteneurs Linux dont Chris Mason et Greg Kroah-Hartman.

    « La traite des esclaves africains était un système brutal de misère humaine déployé à l'échelle mondiale. Les décisions relatives au choix des mots dans un projet de logiciel moderne ne sauraient effacer ce malheureux héritage, mais peuvent aller dans le sens de maximiser la disponibilité et l'efficacité de la communauté mondiale des développeurs pour participer au processus de développement du noyau Linux », avait déclaré Dan Williams lors de la sortie de la proposition.

    Compilation de tous les facteurs de recherche utilisé / qui ont été utilisé par le moteur de recherche Yandex

    Sources : Breached, GitHub, Arseniv

    Et vous ?

    Quelle lecture en faites-vous ?
    Est-il possible de s'inspirer des facteurs de classement, dépréciés ou encore valides, pour manipuler l'algorithme de classement (de Yandex et/ou de Google) et disposer d'un meilleur référencement ? Pourquoi ?
    Que pensez-vous de la présence du langage offensant dans le code ?
    De manière plus générale, qu'avez-vous pensé des différentes modifications du jargon informatique qui ont été entreprises par différents organismes/sociétés ?

    Voir aussi :

    MySQL abandonne les terminologies "master", "slave", "whitelist", "blacklist" et indique que ces modifications seront implémentées dans tous les produits MySQL dès les prochaines versions
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre éprouvé
    Homme Profil pro
    Analyste d'exploitation
    Inscrit en
    Juin 2022
    Messages
    256
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Puy de Dôme (Auvergne)

    Informations professionnelles :
    Activité : Analyste d'exploitation

    Informations forums :
    Inscription : Juin 2022
    Messages : 256
    Points : 901
    Points
    901
    Par défaut
    Citation Envoyé par Stéphane le calme Voir le message
    Quelle lecture en faites-vous ?
    La découverte est bien plus saine que ce à quoi je m'attendais honnêtement.

    Citation Envoyé par Stéphane le calme Voir le message
    Est-il possible de s'inspirer des facteurs de classement, dépréciés ou encore valides, pour manipuler l'algorithme de classement (de Yandex et/ou de Google) et disposer d'un meilleur référencement ? Pourquoi ?
    C'est le coeur de métier de certaines personnes, non ?

    Citation Envoyé par Stéphane le calme Voir le message
    Que pensez-vous de la présence du langage offensant dans le code ?
    Je pense que nos Précieuses sont bien trop ridicules de nos jours, et qu'elles ont besoin de se faire une peau plus dure.
    Au même titre que se mêler de choses privées, je trouve ça absolument hypocrite et culotté d'avoir des personnes capables de mener des campagnes politiques contre le vocabulaire d'autres personnes; D'une part, parce que c'est pratiquement inutile, donc terriblement hypocrite de se targuer défenseurs des droits de l'homme pour avoir... renommé une liste. D'autre part, simplement parce que ça ne les regarde et ça ne les concerne pas ! Si j'ai envie d'appeler mes threads des "Mot en N" dans mon code, c'est mon problème non? Certes, c'est de mauvais goût, mais de là à appliquer nos idéaux moraux à des pays comme la RUSSIE, faut peut-être pas pousser Mémé non ?

    Citation Envoyé par Stéphane le calme Voir le message
    De manière plus générale, qu'avez-vous pensé des différentes modifications du jargon informatique qui ont été entreprises par différents organismes/sociétés ?
    Honnêtement, tant que ça n'est pas réprimandé par la loi, ce n'est pas un problème. Après, tout comme les changements de photos de profils sur LinkedIn pour mettre le drapeau arc-en-ciel de la Pride, cela permet de bien repérer les entreprises qui ne sont intéressées que par leur image publique, donc au fond c'est quelque chose de bien; Comme un témoin d'hypocrisie, quoi. Rappelons-nous le bad buzz volontaire de Coca-Cola qui demandait à ses employés d'être moins blancs, un excellent exemple de l'exploitation des tensions raciales aux USA.

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    40
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 40
    Points : 87
    Points
    87
    Par défaut
    Qwant pourrait peut-être pouvoir échapper à la catastrophe industrielle... en réutilisant ces sources.

  4. #4
    Membre averti
    Profil pro
    Développeur
    Inscrit en
    Octobre 2008
    Messages
    122
    Détails du profil
    Informations personnelles :
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur

    Informations forums :
    Inscription : Octobre 2008
    Messages : 122
    Points : 425
    Points
    425
    Par défaut
    Oh des commentaires racistes? Mais alors, ça n'aurait servi a rien de renommer la branche master en main, mince alors.

  5. #5
    Nouveau Candidat au Club
    Homme Profil pro
    Technicien Help Desk
    Inscrit en
    Février 2021
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Technicien Help Desk

    Informations forums :
    Inscription : Février 2021
    Messages : 6
    Points : 0
    Points
    0
    Par défaut
    Au même titre que se mêler de choses privées, je trouve ça absolument hypocrite et culotté d'avoir des personnes capables de mener des campagnes politiques contre le vocabulaire d'autres personnes; D'une part, parce que c'est pratiquement inutile, donc terriblement hypocrite de se targuer défenseurs des droits de l'homme pour avoir... renommé une liste. D'autre part, simplement parce que ça ne les regarde et ça ne les concerne pas ! Si j'ai envie d'appeler mes threads des "Mot en N" dans mon code, c'est mon problème non? Certes, c'est de mauvais goût, mais de là à appliquer nos idéaux moraux à des pays comme la RUSSIE, faut peut-être pas pousser Mémé non ?
    Ca ne se limite pas au mauvais goût. Et ne j'approuve pas le relativisme justifié par un ambiance rétrograde. Le combat pour les droits et la dignité se mènent partout, tout le temps, dans tout contexte, dans les bons ou les mauvais vents.
    Le fait même que l'entreprise s'excuse reste révélateur de la déviation par rapport à une norme. Ce qui ne veut pas dire que ces excuses soient sincères. Les soupçons d'hypocrisies peuvent être fort à ce propos.
    Mais non, ça n'a rien de privé. C'est une entreprise qui emploie des salarié.e.s qui n'ont pas à subir ces insultés et mépris. D'autant plus que se permettre ce genre d'expression, cette violence verbale, c'est ouvrir d'autant plus grande la porte à la violence physique. Le second se combat aussi par le contrôle du premier. Ce n'est même pas professionnel de produire du code ainsi.
    Et dans le cas d'un code publié sur internet, même hors entreprise, le problème se poserait encore, car ce serait une forme d'expression idéologique qui pourrait être condamné. C'est comme l'écrire dans un blog. Si c'est public...
    Ca ne regarde cependant personne si tu ne partages pas le code (ou dans un cercle privé). Tout autant qu'on a toujours le droit d'écrire des choses abominables dans un journal intime (vraiment intime, et pas un blog).

Discussions similaires

  1. Réponses: 8
    Dernier message: 14/12/2019, 22h25
  2. Réponses: 2
    Dernier message: 28/02/2018, 11h44
  3. Réponses: 18
    Dernier message: 13/12/2017, 21h57
  4. Réponses: 8
    Dernier message: 15/11/2016, 13h52
  5. [PHP 5.0] Récupérer les mots saisis dans un moteur de recherche
    Par masiuxus dans le forum Langage
    Réponses: 11
    Dernier message: 22/09/2010, 19h45

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo