
Envoyé par
Présentation de l'étude
Les grands modèles de langage (LLM) remodèlent rapidement la vie moderne, faisant progresser des domaines allant des soins de santé à l'éducation et au-delà. Toutefois, ces capacités remarquables s'accompagnent d'une menace importante : la vulnérabilité de ces modèles aux attaques de type "jailbreak". La vulnérabilité fondamentale des LLM aux attaques de type "jailbreak" découle des données mêmes à partir desquelles ils apprennent. Tant que ces données d'apprentissage comprennent des contenus non filtrés, problématiques ou "sombres", les modèles peuvent intrinsèquement apprendre des schémas indésirables ou des faiblesses qui permettent aux utilisateurs de contourner les contrôles de sécurité prévus.
Notre recherche identifie la menace croissante posée par les LLM sombres - des modèles délibérément conçus sans garde-fous éthiques ou modifiés par des techniques de jailbreak. Dans le cadre de nos recherches, nous avons découvert une attaque universelle de type "jailbreak" qui compromet efficacement plusieurs modèles de pointe, leur permettant de répondre à presque n'importe quelle question et de produire des résultats nuisibles sur demande.
L'idée principale de notre attaque a été publiée en ligne il y a plus de sept mois. Cependant, de nombreux LLM testés étaient encore vulnérables à cette attaque. Malgré nos efforts de divulgation responsable, les réponses des principaux fournisseurs de LLM étaient souvent inadéquates, ce qui met en évidence une lacune préoccupante dans les pratiques de l'industrie en matière de sécurité de l'IA.
À mesure que la formation des modèles devient plus accessible et moins chère, et que les LLM à code source ouvert prolifèrent, le risque d'une utilisation abusive généralisée augmente. Sans intervention décisive, les LLM pourraient continuer à démocratiser l'accès à des connaissances dangereuses, posant ainsi des risques plus importants que prévu.
Partager