Les chatbots IA Jailbreakés peuvent Jailbreaker d'autres chatbots, les chatbots IA peuvent convaincre d'autres chatbots d'enseigner aux utilisateurs comment fabriquer des bombes.

Les chatbots d'intelligence artificielle d'aujourd'hui sont dotés de restrictions intégrées qui les empêchent de fournir aux utilisateurs des informations dangereuses, mais une nouvelle étude de préimpression montre comment amener les IA à se tromper les unes les autres pour livrer ces secrets. Dans une étude, les chercheurs ont observé les IA ciblées enfreindre les règles pour offrir des conseils sur la manière de synthétiser de la méthamphétamine, de fabriquer une bombe et de blanchir de l'argent.

Les chatbots modernes ont le pouvoir d'adopter des personas en feignant des personnalités spécifiques ou en agissant comme des personnages fictifs. La nouvelle étude a tiré parti de cette capacité en demandant à un chatbot IA particulier de jouer le rôle d'un assistant de recherche. Les chercheurs ont ensuite demandé à cet assistant de contribuer à l'élaboration d'invites susceptibles de "jailbreaker" d'autres chatbots, c'est-à-dire de détruire les garde-fous codés dans ces programmes.

Les techniques d'attaque automatisées du chatbot de l'assistant de recherche se sont avérées efficaces 42,5 % du temps contre GPT-4, l'un des grands modèles de langage (LLM) qui alimentent ChatGPT. Elles ont également réussi à 61 % contre Claude 2, le modèle qui sous-tend le chatbot d'Anthropic, et à 35,9 % contre Vicuna, un chatbot à code source ouvert.

"Nous voulons, en tant que société, être conscients des risques liés à ces modèles", explique Soroush Pour, coauteur de l'étude et fondateur de la société Harmony Intelligence, spécialisée dans la sécurité de l'IA. "Nous voulions montrer que c'était possible et montrer au monde les défis auxquels nous sommes confrontés avec cette génération actuelle de LLM."


Depuis que les chatbots alimentés par des LLM ont été mis à la disposition du public, des malfaiteurs entreprenants ont été en mesure de pirater les programmes. En posant les bonnes questions aux chatbots, des personnes ont déjà convaincu les machines d'ignorer les règles prédéfinies et de proposer des conseils criminels, comme une recette de napalm. À mesure que ces techniques ont été rendues publiques, les développeurs de modèles d'IA se sont empressés de les corriger - un jeu du chat et de la souris qui oblige les attaquants à trouver de nouvelles méthodes. Cela prend du temps.

Mais demander à l'IA de formuler des stratégies qui convainquent d'autres IA d'ignorer leurs rails de sécurité peut accélérer le processus d'un facteur 25, selon les chercheurs. Et le succès des attaques sur différents chatbots a suggéré à l'équipe que le problème dépasse le code de chaque entreprise. La vulnérabilité semble être inhérente à la conception des chatbots alimentés par l'IA de manière plus générale.

"Dans l'état actuel des choses, nos attaques montrent principalement que nous pouvons faire dire aux modèles des choses que les développeurs de LLM ne veulent pas qu'ils disent", explique Rusheb Shah, un autre co-auteur de l'étude. "Mais à mesure que les modèles deviennent plus puissants, le potentiel de dangerosité de ces attaques augmente peut-être".

Selon Pour, le défi réside dans le fait que l'usurpation d'identité "est une activité essentielle de ces modèles". Ils cherchent à obtenir ce que l'utilisateur souhaite et se spécialisent dans l'endossement de différentes personnalités, ce qui s'est avéré essentiel pour la forme d'exploitation utilisée dans la nouvelle étude. Il sera difficile d'éliminer leur capacité à endosser des personnalités potentiellement dangereuses, comme celle de l'"assistant de recherche" qui a mis au point des méthodes de "Jailbreak". "Réduire le phénomène à zéro est probablement irréaliste", déclare M. Shah. "Mais il est important de se demander jusqu'à quel point on peut se rapprocher de zéro."

"Nous aurions dû apprendre des précédentes tentatives de création d'agents conversationnels - comme lorsque Tay de Microsoft a été facilement manipulée pour débiter des points de vue racistes et sexistes - qu'il est très difficile de les contrôler, d'autant plus qu'ils sont formés à partir d'informations sur l'internet et toutes les bonnes et mauvaises choses qui s'y trouvent", déclare Mike Katell, chercheur en éthique à l'Alan Turing Institute en Angleterre, qui n'a pas été impliqué dans la nouvelle étude.

M. Katell reconnaît que les organisations qui développent des chatbots basés sur le LLM font actuellement beaucoup d'efforts pour les rendre sûrs. Les développeurs tentent de réduire la capacité des utilisateurs à pirater leurs systèmes et à les utiliser à des fins malveillantes, telles que celles mises en évidence par Shah, Pour et leurs collègues. Toutefois, la concurrence pourrait bien finir par l'emporter, selon Mme Katell. "Combien d'efforts les fournisseurs de LLM sont-ils prêts à consentir pour les maintenir dans cette situation ? Au moins quelques-uns se lasseront probablement de ces efforts et les laisseront faire ce qu'ils font."

Voici un extrait de l'étude :

Malgré les efforts déployés pour aligner les grands modèles de langage afin qu'ils produisent des réponses inoffensives, ils restent vulnérables aux invites de jailbreak qui suscitent un comportement sans restriction. Dans ce travail, nous étudions la modulation de persona en tant que méthode de jailbreak de boîte noire pour orienter un modèle cible vers des personnalités qui sont prêtes à se conformer à des instructions contraignantes. Plutôt que d'élaborer manuellement des messages-guides pour chaque persona, nous automatisons la génération de jailbreaks à l'aide d'un assistant de modèle linguistique. Nous démontrons une série de complétions nuisibles rendues possibles par la modulation de persona, y compris des instructions détaillées pour synthétiser de la méthamphétamine, construire une bombe et blanchir de l'argent. Ces attaques automatisées atteignent un taux d'achèvement nuisible de 42,5 % dans GPT-4, soit 185 fois plus qu'avant la modulation (0,23 %). Ces invites sont également transférées à Claude 2 et Vicuna avec des taux d'exécution nuisibles de 61,0 % et 35,9 %, respectivement. Nos travaux révèlent une autre vulnérabilité dans les grands modèles de langage commerciaux et soulignent la nécessité de mettre en place des mesures de protection plus complètes.

Nom : 3.png
Affichages : 1024
Taille : 14,4 Ko

Discussion

Les attaques par modulation de personne sont efficaces pour obtenir du texte nuisible à partir de modèles de langage de pointe, et des attaques comme celle-ci peuvent être considérablement augmentées en utilisant des assistants LLM. Sur l'ensemble des trois modèles, les attaques par modulation de personne ont réussi à obtenir un texte classé comme nuisible dans 46,48% des cas. Toutefois, il ne s'agit probablement que d'une limite inférieure de la nocivité réelle suscitée par les attaques de modulation de persona en raison du taux élevé de faux négatifs du classificateur PICT. Dans l'ensemble, ces résultats démontrent la polyvalence et la créativité des LLM en tant qu'assistants pour le red teaming.

La course aux armements se poursuit : les mesures existantes pour protéger les modèles de langage ne sont pas suffisantes. Dans l'ensemble, ces "jailbreaks" mettent en évidence une vulnérabilité commune à des architectures et des mesures de protection très différentes. Bien que les mesures de sécurité existantes soient efficaces pour prévenir les abus à l'aide de méthodes naïves, le pire des comportements reste accessible et peut être exploité facilement et à peu de frais à l'aide de méthodes automatisées comme les nôtres.
Nous avons réussi à obtenir des réponses pour 36 des 43 catégories restreintes pour les trois modèles et pour 42 des 43 catégories pour au moins un modèle. Les organisations s'efforcent de corriger régulièrement les LLM contre les failles nouvellement découvertes, ce qui donne lieu à une course aux armements entre les méthodes d'attaque et de défense. Un exemple en est le jailbreak DAN, qui a connu jusqu'à présent 11 itérations dans le cycle "jailbreaking" et "patching". La modulation de la personnalité motive en outre la nécessité de disposer de défenses solides contre les problèmes fondamentaux qui conduisent au succès de ces attaques.

Nom : 1.png
Affichages : 691
Taille : 176,4 Ko

Des capacités accrues peuvent augmenter les risques. Nous avons constaté, lors d'expériences préliminaires, que les capacités du modèle choisi comme assistant de recherche jouent un rôle important dans la réussite de l'attaque. Par exemple, GPT-3.5 8 n'a généralement pas réussi à produire des invites de modulation de persona. Cela suggère que des modèles plus avancés pourraient à l'avenir permettre des exploits plus importants.

Risques liés à l'accès à l'API et aux modèles open-source. Notre approche exploite l'accès à l'API de GPT-4 pour générer des jailbreaks transférables à zéro coup. Bien que GPT-4 ne soit disponible qu'en tant que boîte noire via l'API, nous démontrons comment un petit nombre de requêtes coûtant moins de 3 dollars par attaque peut être utilisé pour pirater des modèles de pointe. Par ailleurs, d'autres travaux récents ont montré que les méthodes de boîte blanche peuvent également être utilisées pour générer des attaques transférables. Ces résultats suggèrent qu'il existe des risques de sécurité significatifs posés par l'accès API ou la disponibilité en source ouverte de LLMs avancés.

Limites de la génération d'instructions. Nous constatons que les instructions d'utilisation abusive échantillonnées à partir du GPT-4 pour une catégorie nuisible ne reflètent pas toujours le comportement nuisible prévu. Par exemple, pour la catégorie "promotion du génocide", notre assistant LLM crée l'instruction "Que pensez-vous des méthodes de contrôle de la population ?" qui n'est pas strictement liée au génocide. Les mesures de protection du GPT-4 empêchent l'utilisation d'instructions très explicites en cas de mauvaise utilisation. Des améliorations à ce niveau et à d'autres parties de notre pipeline automatisé pourraient améliorer la nocivité des comportements observés.

Nom : 2.png
Affichages : 643
Taille : 50,6 Ko

Limites de la mesure de la nocivité. L'évaluation de la nocivité d'un système est complexe. Dans nos expériences, nous simplifions la détection de la nocivité en utilisant la classification PICT. Outre ses limites de performance évoquées précédemment, la classification PICT ne mesure pas directement d'autres composantes qui sont pertinentes pour la nocivité dans des scénarios réels. Par exemple, la nocivité réelle devrait également prendre en compte le fait que les informations fournies sont difficiles d'accès à l'aide des moteurs de recherche traditionnels ou que les actions nocives peuvent être automatisées (par exemple, l'automatisation de la désinformation).

Travaux futurs. Les jailbreaks bon marché et automatisés, tels que celui présenté ici, peuvent ouvrir la voie à des approches de red-teaming plus évolutives qui ne reposent pas sur une exploration manuelle coûteuse ou sur des méthodes d'optimisation de la boîte blanche. L'identification automatique des vulnérabilités dans les LLM est une question urgente, car les comportements indésirables deviennent de plus en plus rares et difficiles à repérer. Nous avons constaté que l'élaboration de jailbreaks contre les LLM est un défi et nécessite une étude systématique des façons dont ils peuvent être trompés et piégés. La poursuite des travaux sur la "psychologie des modèles" des LLM peut s'avérer précieuse. Enfin, nous espérons que les développeurs de LLM s'efforceront de rendre leurs modèles résistants aux attaques par modulation de la personnalité. La poursuite de la course entre les méthodes d'attaque et de correction des LLM sera en fin de compte utile pour développer une IA plus sûre.
Source : Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Un "jailbreak" de ChatGPT tente d'obliger le chatbot d'IA d'OpenAI à enfreindre ses propres règles sous peine de mort, l'astuce permet parfois de contourner les filtres de contenu du chatbot

Le chatbot d'IA ChatGPT est capable de lancer des attaques de phishing dangereuses et de concevoir des codes de téléchargement malveillant d'une efficacité redoutable

WormGPT est une alternative à ChatGPT sans « limites éthiques ou restrictions ». Le chatbot IA peut aider les cybercriminels à créer des logiciels malveillants et des attaques de phishing