ChatGPT pourrait déjouer certaines techniques classiques d'obscurcissement des adresses électroniques

**Mathis Lucas** · 10/11/2023, 21h04

ChatGPT serait en mesure de déjouer facilement certaines techniques classiques d'obscurcissement des adresses électroniques
une capacité qui pourrait être exploitée par des acteurs de la menace

Un développeur a mis en évidence une capacité inattendue de ChatGPT : le chatbot d'IA d'OpenAI serait en mesure de contourner facilement les techniques d'obscurcissement des adresses électroniques. Elles sont très souvent utilisées pour obscurcir les adresses électroniques sur les plateformes en ligne, car elles peuvent être collectées par grattage Web et utilisées pour envoyer des courriels non désirés. Mais le fait que certaines d'entre elles peuvent maintenant être déjouées facilement par ChatGPT, et probablement par ses rivaux, constitue un nouveau risque de sécurité pour les internautes. L'exploitation de cette capacité des modèles d'IA pourrait néanmoins être très coûteuse.

Il existe plusieurs raisons pour lesquelles une personne ou entreprise pourrait être amenée à obscurcir son adresse électronique sur certaines plateformes. Par exemple, les techniques d'obscurcissement des adresses électroniques, comme la modification des caractères (par exemple, le remplacement de "@" par "at"), sont utilisées pour empêcher les outils automatisés de grattage Web de collecter facilement les adresses électroniques. Elles sont employées sur les réseaux sociaux, les forums en ligne, etc. Les personnes affectées peuvent être la cible de campagnes d'hameçonnage de grande envergure, ce qui constitue un risque important de violation de données.

Toutefois, le développeur Arnaud Norman a rapporté que ChatGPT franchit ces barrières sans effort, mettant en lumière les adresses électroniques obscurcies avec une précision remarquable. Norman, qui développe l'outil d'IA "BulkNinja", travaillait sur un projet d'utilisation de l'IA pour organiser des fils de discussion intitulés "Ask HN : Who is hiring?" sur la plateforme communautaire Hacker News. Sur ces fils de discussion, des entreprises et startups publient des offres d'emploi et, inversement, les demandeurs d'emploi font leur propre promotion et proposent leurs services. Cependant, le format incohérent rend difficile le tri de la vaste quantité d'informations.

Nom : chatgpt-1536x768.jpg
Affichages : 3016
Taille : 36,2 Ko

Dans le cadre de son projet, Norman a fait appel à ChatGPT. Norman, qui essayait de compiler ces données dans Google Sheets afin d'en faciliter l'accès, a demandé à ChatGPT d'inclure les informations de contact fournies dans les offres d'emploi. Le développeur s'attendait à ce qu'il soit difficile d'extraire les contacts obscurcis, mais il a remarqué que ChatGPT a collecté les contacts sans aucun problème, même lorsque certaines des lettres des adresses électroniques étaient remplacées par d'autres caractères. « J'ai réalisé que si je l'utilisais, je pourrais rendre inutile l'obscurcissement des adresses électroniques », note le développeur dans un billet de blogue.

Fait fascinant, Norman note que ChatGPT réussissait à déchiffrer les adresses électroniques même lorsque de multiples méthodes d'obscurcissement étaient déployées simultanément. Norman a déclaré avoir finalement ignoré ces données. Il a affirmé : « même lorsque de multiples méthodes d'obscurcissement ont été employées, le chatbot d'IA a habilement identifié et récupéré les adresses électroniques prévues avec une précision remarquable. En fin de compte, j'ai décidé d'exclure les courriels de contact de la feuille Google finale, car les personnes qui dissimulent leurs courriels ne souhaitent manifestement pas qu'ils soient accessibles au public ».

L'étendue de cette capacité soulève des questions quant à l'efficacité des méthodes d'obscurcissement traditionnelles lorsqu'elles sont confrontées à des systèmes d'IA avancés tels que ChatGPT. Dans son billet de blogue, Norman a partagé quelques techniques intrigantes qu'il a rencontrées en examinant les données extraites. Outre la "méthode de substitution des caractères", le développeur dit avoir trouvé trois autres techniques d'obscurcissement impressionnantes :

Division de l'information dans le message

Selon Norman, cette technique consiste à écrire une partie de l'adresse électronique sous la forme "john@company name domain", de sorte que l'adresse électronique ne soit reconnaissable que lorsqu'elle est associée au nom de l'entreprise dans le message. Norman note que cette méthode était assez efficace, mais ChatGPT l'aurait facilement déjouée lorsqu'il lui a passé l'invite : "penser étape par étape".

Nom : 11.png
Affichages : 1272
Taille : 8,0 Ko

Publication indirecte de l'information

À travers cette méthode, l'auteur du message ne publie pas son adresse électronique, mais indique où vous pouvez la trouver. Le message peut indiquer : « pour toute demande de renseignements, veuillez utiliser l'adresse électronique figurant sur la page d'information sur l'emploi ». Étant donné que le code de Norman ne comportait pas de fonction de navigation, cette méthode reste valable.

Nom : 22.png
Affichages : 1272
Taille : 7,8 Ko

Autre méthode de publication indirecte

Il s'agit de la même méthode que précédemment. Par contre, dans ce cas, l'auteur du message écrit : « l'adresse email est dans mon profil ». Il fait ensuite référence au profil de Hacker News. Cette méthode a également été efficace pour les raisons mentionnées ci-dessus. « Cette méthode est très efficace, car il serait coûteux d'employer une IA pour parcourir la page à la recherche du profil afin de localiser l'adresse électronique », a déclaré Norman.

Nom : 33.png
Affichages : 1268
Taille : 5,3 Ko

Commentant cette expérience, il a écrit : « en résumé, les techniques classiques d'obscurcissement du courrier électronique, comme la substitution de caractères, sont totalement inefficaces face à des modèles de langage avancés comme ChatGPT. La bataille pour protéger les adresses électroniques de la collecte automatisée semble perdue d'avance, car ces modèles possèdent une capacité à décoder les différentes techniques d'obscurcissement ». Il est intéressant de noter que si ChatGPT étonne par ses capacités à décoder un message obscurci, de simples scripts permettent également d'obtenir des résultats similaires à l'aide d'une expression régulière.

Mais la différence fondamentale réside dans l'approche adoptée, car ChatGPT s'appuie sur des algorithmes d'IA pour atteindre ses capacités de décodage. En outre, les implications de la capacité de ChatGPT en matière de décodage sont considérables. Les organisations et les personnes qui dépendent de la communication par courrier électronique ont désormais la possibilité de réévaluer les méthodes qu'ils utilisent pour protéger leurs coordonnées. Avec la montée en puissance de modèles d'IA tels que ChatGPT, les chercheurs estiment qu'il est essentiel de rester vigilant et d'expérimenter des mesures plus robustes pour protéger les informations sensibles.

« J'ai utilisé ChatGPT pour décoder des fichiers binaires propriétaires de machines industrielles. C'est incroyable comme il peut déchiffrer de telles choses et trouver des modèles. Il a d'abord cherché des caractères ASCII, des séquences d'octets agissant comme délimiteurs, puis il a commencé à chercher quels octets pouvaient être la longueur ou quels 4 octets pouvaient être des nombres en virgule flottante de coordonnées et quel endianness était le plus logique pour les coordonnées, etc. C'est en effet complètement fou. Je pense sincèrement que les gens doivent commencer à protéger leurs informations sensibles comme ils ne l'avaient jamais fait ».

Dans un monde où "caché" ne signifie pas toujours sûr, la capacité de décodage de ChatGPT ouvre la voie à une exploration plus poussée et au développement de techniques avancées pour remédier aux vulnérabilités potentielles de la sécurité du courrier électronique. Mais dans les commentaires, certains ont souligné que même si la capacité de ChatGPT à déchiffrer des messages obscurcis peut sembler attrayante, il serait très coûteux de l'exploiter. « En effet, le coût de l'extraction des adresses électroniques avec ChatGPT dépasse les revenus générés par le grattage Web des adresses électroniques. Cela n'aura donc pas un grand impact », note un critique.

D'autres critiques ont toutefois répliqué que les coûts d'exploitation pouvaient être maintenus à un faible niveau parce qu'il existe des modèles open source capables de fonctionner sur des machines locales. L'expérience de Norman fait écho à une étude publiée le mois dernier par des chercheurs de l'ETH Zurich, en Suisse. L'étude révèle que les chatbots d'IA tels que ChatGPT peuvent déduire des informations sensibles sur les personnes avec lesquelles ils discutent, même si la conversation est tout à fait banale. Ces informations comprennent la race, le lieu de résidence, la profession, et bien plus encore. Une menace pour la vie privée des utilisateurs.

L'équipe affirme que cette capacité troublante est "très problématique", car les escrocs pourraient l'exploiter pour collecter les données sensibles auprès d'utilisateurs peu méfiants. Elle peut aussi être exploitée pour cibler des publicités. Pour l'instant, les chercheurs affirment qu'ils ne savent pas comment résoudre le problème.

Source : billet de blogue

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de la capacité de ChatGPT à décoder les adresses électroniques obscurcies ?

Quelles pourraient être les implications de cette capacité des modèles de langage comme ChatGPT ?

L'exploitation de cette capacité sera-t-elle trop coûteuse comme certains le prétendent ? Pourquoi ?

Quels sont les risques pour les internautes et les entreprises ? Comment peuvent-ils atténuer ces risques ?

Que pensez-vous de la capacité des modèles d'IA à extraire des informations sensibles de conversations anodines ?

Voir aussi

Une étude affirme que les chatbots d'IA peuvent deviner avec précision les informations personnelles d'un utilisateur à partir de discussions anodines, une menace pour la vie privée des utilisateurs

Au-delà des garde-fous : exploration des risques de sécurité liés au chatbot d'IA ChatGPT, ces risques comprennent la génération de services frauduleux et la collecte d'informations nuisibles

Des employés partageraient des données professionnelles sensibles avec ChatGPT, ce qui suscite des craintes en matière de sécurité, ChatGPT pourrait mémoriser ces données et les divulguer plus tard

**Fagus** · 11/11/2023, 11h24

Ça fait 15 ans que je laisse les courriels sous forme codée dans l'html avec un décodeur en JavaScript. Aucun robot n'a pour l'instant collecté les adresses protégées.
Conclusion, si exécuter du JavaScript est trop coûteux, je ne vois pas de risque à utiliser l'IA là où une regexpr aurait suffi.

ChatGPT pourrait déjouer certaines techniques classiques d'obscurcissement des adresses électroniques

Intelligence artificielle

Discussions similaires

Partager

Partager