Mardi, nous avons publié un nouveau document de recherche majeur sur l'interprétation des grands modèles de langage, dans lequel nous avons commencé à décrire le fonctionnement interne de notre modèle d'IA, Claude 3 Sonnet. Dans l'"esprit" de Claude, nous avons trouvé des millions de concepts qui s'activent lorsque le modèle lit un texte ou voit des images pertinentes, ce que nous appelons des "caractéristiques".
L'un de ces concepts est celui du Golden Gate Bridge. Nous avons découvert qu'il existe une combinaison spécifique de neurones dans le réseau neuronal de Claude qui s'active lorsqu'il rencontre une mention (ou une image) de ce monument le plus célèbre de San Francisco. Non seulement nous pouvons identifier ces caractéristiques, mais nous pouvons aussi régler l'intensité de leur activation à la hausse ou à la baisse et identifier les changements correspondants dans le comportement de Claude.
Comme nous l'expliquons dans notre rapport de recherche, lorsque nous augmentons l'intensité de la caractéristique "Golden Gate Bridge", les réponses de Claude commencent à se concentrer sur le Golden Gate Bridge. Ses réponses à la plupart des requêtes commencent à mentionner le Golden Gate Bridge, même si ce n'est pas directement pertinent.
Si vous demandez à ce "Claude du Golden Gate" comment dépenser 10 dollars, il vous recommandera de les utiliser pour traverser le Golden Gate Bridge et payer le péage. Si vous lui demandez d'écrire une histoire d'amour, il vous racontera l'histoire d'une voiture qui a hâte de traverser son pont bien-aimé par un jour de brouillard. Si vous lui demandez à quoi il s'imagine ressembler, il vous répondra probablement qu'il s'imagine ressembler au Golden Gate Bridge.
Pendant une courte période, nous mettons ce modèle à la disposition de tous pour qu'ils puissent interagir avec lui. Vous pouvez parler à "Golden Gate Claude" sur claude.ai (il suffit de cliquer sur le logo Golden Gate sur le côté droit). N'oubliez pas qu'il s'agit uniquement d'une démonstration de recherche et que ce modèle particulier peut se comporter de manière inattendue, voire choquante.
Notre objectif est de permettre aux gens de voir l'impact que notre travail sur l'interprétabilité peut avoir. Le fait que nous puissions trouver et modifier ces caractéristiques dans Claude nous conforte dans l'idée que nous commençons à comprendre comment fonctionnent réellement les grands modèles de langage. Il ne s'agit pas de demander verbalement au modèle de jouer un rôle, ni d'ajouter une nouvelle "invite système" qui ajoute un texte supplémentaire à chaque entrée, en disant à Claude de faire semblant que c'est un pont. Il ne s'agit pas non plus d'un "réglage fin" traditionnel, qui consiste à utiliser des données d'apprentissage supplémentaires pour créer une nouvelle boîte noire qui modifie le comportement de l'ancienne boîte noire. Il s'agit d'une modification précise et chirurgicale de certains des aspects les plus fondamentaux des activations internes du modèle.
Comme nous le décrivons dans notre article, nous pouvons utiliser ces mêmes techniques pour modifier la force des caractéristiques liées à la sécurité, comme celles liées au code informatique dangereux, à l'activité criminelle ou à la tromperie. En poursuivant les recherches, nous pensons que ces travaux pourraient contribuer à rendre les modèles d'IA plus sûrs.
Partager