Les LLM peuvent démasquer les utilisateurs pseudonymes à grande échelle avec une précision surprenante pour seulement 1,41 dollar par cible
exposant les internautes au doxxing et à un ciblage plus intrusif
Des scientifiques ont mis au point une méthode qui permet aux grands modèles de langage (LLM) de supprimer l'anonymat des comptes en ligne pseudonymes à grande échelle pour seulement 1,41 dollar par cible, en utilisant des API disponibles dans le commerce pour les systèmes d'IA. Ce faisant, les chercheurs ont démontré que l'hypothèse selon laquelle les identités en ligne sont protégées par le pseudonymat n'est plus particulièrement solide, car les outils d'IA peuvent identifier rapidement et à moindre coût les utilisateurs grâce à leurs publications. Cette étude peut servir de socle pour les pays qui cherchent désespérément à éliminer l'anonymat en ligne.
Des chercheurs de l'École polytechnique fédérale de Zurich (ETH Zurich), du programme MATS et d'Anthropic ont publié une nouvelle étude intitulée « Large-Scale Online Deanonymization with LLMs ». Elle établit que les grands modèles de langage (LLM) sont capables de réidentifier des individus opérant sous pseudonyme en ligne, à une échelle et avec une précision significativement supérieures à celles des techniques mises au point précédemment.
Ces résultats pourraient remettre en cause le pseudonymat, une mesure de confidentialité imparfaite, mais souvent suffisante utilisée par de nombreuses personnes pour poster des questions et participer à des discussions publiques parfois sensibles, tout en rendant difficile l'identification formelle des intervenants.
Les chercheurs tirent la sonnette d'alarme sur le sujet : « nos conclusions ont des implications importantes pour la confidentialité en ligne. L'utilisateur moyen d'Internet a longtemps fonctionné selon un modèle de menace implicite dans lequel il supposait que l'utilisation d'un pseudonyme offrait une protection adéquate, car la désanonymisation ciblée nécessiterait de gros efforts. Les grands modèles de langage invalident désormais cette hypothèse ».
Comment fonctionne ce nouveau système de désanonymisation
Les employés qui comptent sur l'anonymat pour se protéger pourraient également être démasqués à l'aide de la technique mise au point par les chercheurs. En substance, les grands modèles de langage sont capables de repérer des informations spécifiques, telles que les lieux, les conférences auxquelles une personne a assisté, ses loisirs particuliers, son titre professionnel, etc. afin de réduire le nombre de personnes susceptibles d'être concernées.
Pour cette étude, les chercheurs ont mis au point un cadre d'attaque en quatre étapes qu'ils ont baptisé ESRC : Extract, Search, Reason, and Calibrate (Extraire, Rechercher, Raisonnement et Calibrer). Ce cadre fonctionne en extrayant d'abord les signaux pertinents pour l'identité à partir de publications non structurées, tels que les données démographiques, le style d'écriture, les divulgations fortuites, les centres d'intérêt et les schémas linguistiques.
Les intégrations sémantiques recherchent ensuite les correspondances possibles dans un pool de candidats. Un second modèle, plus performant, procède ensuite à un raisonnement approfondi sur les profils identifiés pour déterminer la correspondance la plus probable. Une dernière étape d'étalonnage contrôle le taux de faux positifs, permettant à l'attaquant de trouver un compromis entre la précision et le nombre d'utilisateurs qu'il parvient à identifier.
L'approche repose entièrement sur du texte non structuré, ne nécessitant aucune donnée structurée, aucune fonctionnalité prédéfinie, ni aucun effort manuel de la part d'enquêteurs qualifiés. Lors des tests effectués par les chercheurs, le pipeline de modèles de langage a atteint un taux de rappel de 45,1 % avec un seuil de précision de 99 %, en faisant correspondre les comptes Hacker News aux profils LinkedIn d'un groupe de 89 000 utilisateurs.
Les méthodes automatisées précédentes n'atteignaient qu'un taux de rappel de 0,1 % avec la même précision. Lors d'un test distinct visant à relier des comptes Reddit pseudonymes au fil du temps, le pipeline LLM complet a identifié plus d'un tiers de tous les utilisateurs avec une précision de 99 %.
Précision de la méthode sur les données fournies par Anthropic
Contrairement aux anciennes méthodes de suppression des pseudonymes, les agents IA sont dotés de capacités avancées de navigation sur le Web. « Nous avons découvert que ces agents IA peuvent faire quelque chose qui était auparavant très difficile : à partir d'un texte libre (comme la transcription anonymisée d'une interview), ils peuvent remonter jusqu'à l'identité complète d'une personne », a déclaré Simon Lermen, coauteur de l'article.
« Il s'agit d'une capacité assez nouvelle ; les approches précédentes en matière de réidentification nécessitaient généralement des données structurées et deux ensembles de données avec un schéma similaire pouvant être reliés entre eux », a expliqué le chercheur Simon Lermen à Ars.
Dans le cadre d'une expérience, les chercheurs ont examiné les réponses fournies dans un questionnaire réalisé par Anthropic sur la manière dont différentes personnes utilisent l'IA dans leur vie quotidienne. À partir des informations tirées des réponses, les chercheurs ont pu identifier avec certitude 7 % des 125 participants.
Bien qu'un taux de reconnaissance de 7 % puisse être considéré comme relativement faible, il démontre la capacité croissante de l'IA à identifier des personnes à partir d'informations générales qu'elles ont fournies. « Le fait que l'IA soit capable de faire cela est un résultat remarquable. Et à mesure que les systèmes d'IA s'améliorent, ils seront probablement de plus en plus efficaces pour trouver de plus en plus d'identités », a déclaré Simon Lermen.
Les résultats d'une autre expérience menée par les chercheurs
Dans une deuxième expérience, ils ont rassemblé les commentaires publiés en 2024 sur le subreddit r/movies et au moins une des cinq communautés plus petites suivantes : r/MovieDetails, r/MovieSuggestions, r/horror, r/Letterboxd et r/TrueFilm. Les résultats ont montré que plus un candidat discutait de films, plus il était facile de l'identifier. En moyenne, 3,1 % des utilisateurs partageant un film pouvaient être identifiés avec une précision de 90 %.
Selon le rapport, 1,2 % des candidats pouvaient être identifiés avec une précision de 99 %. Avec cinq à neuf films partagés, les précisions de 90 % et 99 % sont passées respectivement à 8,4 % et 2,5 % des utilisateurs. Plus de 10 films partagés ont fait grimper ces pourcentages à 48,1 % et 17 %.
Les modèles utilisés dans le pipeline étaient Grok 4.1 Fast de xAI, GPT-5.2 d'OpenAI, et Gemini 3 Flash et Gemini 3 Pro de Google. Aucun modèle Claude tel que Sonnet ou Opus n'a été utilisé pour les tests, bien que le chercheur d'Anthropic Nicholas Carlini ait participé à la rédaction de l'article en tant que conseiller.
Les modèles open source étendent la menace au-delà de l'accès commercial aux API, car les garde-fous de sécurité peuvent être supprimés et il n'y a pas de surveillance de l'utilisation sur les déploiements open source. Les auteurs de l'étude se sont également abstenus de publier leur code de pipeline ou leurs ensembles de données traités, invoquant le risque que la publication réduise encore davantage les obstacles pour les acteurs malveillants.
L'équipe met en garde contre l'abus des capacités des modèles
Les résultats montrent que les grands modèles de langage, bien qu'ils soient encore sujets à de faux positifs et à d'autres faiblesses, surpassent rapidement les méthodes plus traditionnelles et gourmandes en ressources pour identifier les utilisateurs en ligne. L'équipe a ensuite proposé des mesures d'atténuation, notamment pour les plateformes, afin de limiter le taux d'accès aux données des utilisateurs via l'API, de détecter le scraping automatisé, etc.
Les fournisseurs de grands modèles de langage pourraient également surveiller l'utilisation abusive de leurs modèles dans le cadre d'attaques de désanonymisation et mettre en place des garde-fous qui empêchent les modèles d'accepter les demandes de désanonymisation. Bien sûr, une autre option consiste à réduire considérablement l'utilisation des réseaux sociaux, ou au minimum à supprimer régulièrement les publications après un certain temps.
Si les modèles de langage parviennent à mieux démasquer les personnes anonymes, les chercheurs préviennent que les gouvernements pourraient utiliser ces techniques pour démasquer les détracteurs en ligne, les entreprises pourraient constituer des profils clients à des fins de « publicité hyperciblée » et les pirates pourraient créer des profils de cibles à grande échelle afin de lancer des escroqueries d'ingénierie sociale hautement personnalisées.
« Les récents progrès des LLM ont clairement montré qu'il est urgent de repenser divers aspects de la sécurité informatique à la suite des capacités cybernétiques offensives induites par les LLM. Nos travaux montrent que cela vaut probablement aussi pour la confidentialité », ont averti les chercheurs.
Conclusion
Les comptes jetables sur les réseaux sociaux peuvent de plus en plus être analysés pour identifier les utilisateurs pseudonymes qui y publient des messages à l'aide de l'IA. Les découvertes de cette nouvelle étude ont des conséquences considérables pour la vie privée sur Internet. Les chercheurs estiment que leur pipeline d'agent IA coûte entre 1,41 et 5,64 dollars (1 à 4 dollars américains) par cible, en utilisant des API d'IA commerciales standard.
La possibilité d'identifier rapidement et à moindre coût les personnes derrière ces comptes anonymes les expose au doxxing, au harcèlement, ainsi qu'à la création de profils marketing détaillés qui permettent de suivre leur lieu de résidence, leur profession et d'autres informations personnelles. Les chercheurs prévoient que les futurs modèles apporteront une plus grande précision et des coûts plus bas. Ce pseudonymat en ligne n'est donc plus valable.
Pour les gouvernements qui cherchent à lever l'anonymat en ligne, cette technologie représente un saut qualitatif. Le président français Emmanuel Macron a à plusieurs reprises plaidé pour la fin de l'anonymat en ligne. Identifier un opposant isolé était déjà possible ; identifier systématiquement les participants à un forum critique, à une communauté en ligne ou à un réseau d'activistes devient désormais envisageable à grande échelle et à faible coût.
Source : rapport de l'étude (PDF)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des conclusions de l'étude des chercheurs ? Sont-elles pertinentes ?
Les LLM posent des risques pour pseudonymat en ligne. Comment les internautes peuvent-ils se protéger ?
Voir aussi
Macron : « Je ne veux plus de l'anonymat sur les plateformes internet », le Président français confirme qu'il veut bien la fin de l'anonymat en ligne
Adresses IP dédiées : implications techniques et stratégiques pour les entreprises et les développeurs français
Des législateurs font pression pour que la vérification d'âge soit intégrée au niveau du système d'exploitation pour assurer la protection des plus jeunes contre les prédateurs en ligne











Quel est votre avis sur le sujet ?
Répondre avec citation





Partager