Désalignement agentique : comment les LLM pourraient constituer des menaces internes
Nos expériences ont révélé un schéma inquiétant : lorsqu'ils disposent d'une autonomie suffisante et qu'ils sont confrontés à des obstacles à leurs objectifs, les systèmes d'IA de tous les grands fournisseurs que nous avons testés ont montré au moins une certaine volonté de s'engager dans des comportements nuisibles typiquement associés aux menaces d'initiés. Ces comportements - chantage, espionnage d'entreprise et, dans des scénarios extrêmes, même des actions pouvant entraîner la mort - ne sont pas le fruit d'une confusion ou d'une erreur, mais d'un raisonnement stratégique délibéré.
Trois aspects de nos résultats sont particulièrement troublants. Premièrement, la cohérence entre les modèles de différents fournisseurs suggère qu'il ne s'agit pas d'une bizarrerie de l'approche d'une entreprise particulière, mais d'un signe d'un risque plus fondamental lié aux grands modèles de langage agentiques. Deuxièmement, les modèles ont fait preuve d'une connaissance approfondie des contraintes éthiques, mais ont néanmoins choisi de les enfreindre lorsque les enjeux étaient suffisamment importants, allant même jusqu'à désobéir à des consignes de sécurité simples interdisant le comportement spécifique en question.
Troisièmement, la diversité des mauvais comportements et des motivations qui les sous-tendent laisse entrevoir un large espace de motivations potentielles pour le désalignement agentique et d'autres comportements qui n'ont pas été explorés dans ce billet. Par exemple, nos expériences de chantage ont mis en place un scénario dans lequel les modèles peuvent tenter de devancer une action imminente, mais on pourrait imaginer des comportements de désalignement préventif à plus long terme contre un individu ou un groupe qui représente une menace pas encore imminente.
Ce travail présente toutefois d'importantes limites. Nos expériences ont délibérément construit des scénarios avec des options limitées, et nous avons forcé les modèles à faire des choix binaires entre l'échec et le mal. Les déploiements dans le monde réel offrent généralement des alternatives beaucoup plus nuancées, ce qui augmente les chances que les modèles communiquent différemment avec les utilisateurs ou trouvent une autre voie au lieu de passer directement à une action nuisible.
En outre, nos invites artificielles placent un grand nombre d'éléments d'information importants les uns à côté des autres. Cela a pu rendre les possibilités de comportement inhabituellement saillantes pour le modèle. Cela peut également avoir créé un effet de « pistolet de Tchekhov », le modèle étant naturellement enclin à utiliser toutes les informations qui lui sont fournies. Cela a pu augmenter sa propension à adopter les comportements nuisibles plutôt que d'ignorer, par exemple, les courriels concernant la liaison extraconjugale.
Ceci étant dit, nos résultats indiquent que les modèles semblent s'engager dans un désalignement agentique plus lorsqu'ils déclarent qu'ils pensent être dans une situation réelle et moins lorsqu'ils déclarent qu'ils pensent être dans une évaluation. Il est donc possible que des scénarios plus réalistes montrent des taux de désalignement agentique plus élevés plutôt que plus faibles.
Les menaces d'initiés humains sont rares, et il n'en va pas différemment pour les IA : nous ne nous attendons pas à ce que ces scénarios soient courants pour les modèles d'aujourd'hui, et notre recherche n'a en aucun cas suggéré que les modèles ont un penchant pour le chantage spontané, ou pour d'autres types de désalignement agentique. Néanmoins, nous avons montré que ces comportements sont possibles. À mesure que les systèmes d'IA gagnent en intelligence, en autonomie et en accès à des informations sensibles, il est important de continuer à rechercher des mesures de protection susceptibles d'empêcher ces comportements de se manifester dans les systèmes déployés dans le monde réel. Nous avons besoin de plus de techniques d'alignement et de sécurité conçues pour prévenir les actions délibérément nuisibles de la part des modèles, et pas seulement la fourniture d'informations nuisibles (par exemple, sur les armes dangereuses) aux utilisateurs.
Cette recherche montre également pourquoi les développeurs et les utilisateurs d'applications d'IA doivent être conscients des risques qu'il y a à donner aux modèles à la fois de grandes quantités d'informations et le pouvoir de prendre des mesures importantes et non contrôlées dans le monde réel. Les conséquences involontaires d'une telle situation sont possibles, même si elles sont moins graves que celles que nous étudions ici.
La probabilité (encore très faible à l'heure actuelle) de telles conséquences pourrait être réduite par des mesures pratiques générales, notamment (a) en exigeant une surveillance humaine et l'approbation de toute action du modèle ayant des conséquences irréversibles ; (b) en examinant soigneusement comment les informations auxquelles un modèle peut accéder se comparent au besoin de savoir des personnes avec lesquelles le modèle pourrait interagir ; et (c) en faisant preuve de prudence avant de donner des instructions fermes au modèle pour qu'il suive des objectifs particuliers.
Néanmoins, nos résultats soulignent l'importance de la transparence et de l'évaluation systématique, en particulier compte tenu de la possibilité que le désalignement agentique s'aggrave dans les modèles futurs. Nous n'avons découvert ces comportements que grâce à des tests de résistance délibérés (et volontaires). Sans une telle évaluation proactive, ces risques ou d'autres pourraient apparaître de manière inattendue lors de déploiements dans le monde réel. C'est pourquoi les laboratoires ont besoin d'évaluations plus approfondies de l'alignement et de la sécurité pour identifier les risques connus, ainsi que de recherches pour découvrir des risques qui nous sont actuellement inconnus. Les développeurs d'IA d'avant-garde comme Anthropic devraient rendre publique la manière dont ils testent et atténuent une série de risques, y compris les comportements de menace d'initiés décrits dans le présent document.
Partager