IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Claude Opus 4 a menacé de dévoiler la liaison d'un ingénieur pour éviter d'être mis hors ligne


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 651
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 651
    Par défaut Claude Opus 4 a menacé de dévoiler la liaison d'un ingénieur pour éviter d'être mis hors ligne
    Anthropic lance les modèles Claude 4 qui peuvent travailler de manière autonome pendant presque toute une journée de travail en entreprise, établissant de nouvelles normes en matière de codage et d'agents IA

    Anthropic a lancé Claude Opus 4 et Claude Sonnet 4, positionnant Opus 4 comme le meilleur modèle de codage au monde avec 72,5 % de performance sur SWE-bench et 43,2 % sur Terminal-bench. Les deux modèles sont dotés d'une architecture hybride permettant des réponses quasi instantanées et des modes de réflexion étendus pour les tâches de raisonnement complexes.

    Les modèles Claude 4, lancés ce 22 mai 2025, introduisent des capacités parallèles d'exécution d'outils et de mémoire qui permettent à Claude d'extraire et de sauvegarder des faits clés lorsqu'il dispose d'un accès local aux fichiers. D'après Anthropic, Claude Opus 4 est le meilleur modèle de codage au monde, avec des performances soutenues sur des tâches complexes et de longue durée et des flux de travail d'agents. Claude Sonnet 4 est, quant à lui, une mise à jour significative de Claude Sonnet 3.7, offrant un codage et un raisonnement supérieurs tout en répondant plus précisément aux instructions des utilisateurs.


    Anthropic, qui compte Amazon et Google parmi ses investisseurs, a déclaré que Claude Opus 4 pouvait travailler de manière autonome pendant presque une journée de travail complète.

    « Je rédige beaucoup avec Claude, et je pense qu'avant Opus 4 et Sonnet 4, j'utilisais surtout les modèles comme partenaire de réflexion, mais je rédigeais moi-même la plupart des textes », a déclaré Mike Krieger, directeur des produits d'Anthropic, lors d'une interview. « Et ils ont franchi ce seuil où maintenant la plupart de mes écrits sont en fait ... [écrits avec] Opus principalement, et ils sont maintenant méconnaissables de mes écrits ».

    Mike Krieger a ajouté : « J'aime le fait que nous repoussons la frontière de deux côtés. D'une part, il y a le codage et le comportement agentique en général, et c'est ce qui alimente un grand nombre de ces startups de codage. ... Mais nous repoussons également les limites de la manière dont ces modèles peuvent apprendre et devenir des partenaires d'écriture très utiles. »

    Parallèlement aux modèles Claude 4, Anthropic a également annoncé :

    • Le raisonnement avancé avec utilisation d'outils (en bêta) : Les deux modèles peuvent utiliser des outils - comme la recherche sur Internet - pendant le raisonnement étendu, ce qui permet à Claude d'alterner entre la réflexion et l'utilisation d'outils pour améliorer les réponses.
    • De nouvelles capacités pour les modèles : Les deux modèles peuvent utiliser des outils en parallèle, suivre des instructions avec plus de précision et, lorsque les développeurs leur donnent accès aux fichiers locaux, faire preuve de capacités de mémorisation considérablement améliorées, en extrayant et en sauvegardant des faits clés pour maintenir la continuité et construire une connaissance tacite au fil du temps.
    • La disponibilité générale de Claude Code : Après avoir reçu de nombreux commentaires positifs lors de son aperçu de recherche, Anthropic a élargi la façon dont les développeurs peuvent collaborer avec Claude. Claude Code prend désormais en charge les tâches d'arrière-plan via GitHub Actions et les intégrations natives avec VS Code et JetBrains, affichant les modifications directement dans les fichiers des utilisateurs pour une programmation en binôme transparente. L'intégration de GitHub permet en outre à Claude de répondre aux demandes de commentaires et de corriger les erreurs d'intégration continue (CI) grâce à un nouveau SDK en version bêta.
    • Nouvelles fonctionnalités de l'API : Anthropic a publié quatre nouvelles capacités sur son API qui permettent aux développeurs de construire des agents d'IA plus puissants : l'outil d'exécution de code, le connecteur MCP, l'API Fichiers et la possibilité de mettre en cache les invites jusqu'à une heure.

    Concernant la tarification, elle reste cohérente avec les modèles Opus et Sonnet précédents : 15 $/75 $ par million de jetons (entrée/sortie) pour Opus 4 et 3 $/15 $ pour Sonnet 4. Les deux modèles sont disponibles via l'interface web de Claude, l'API Anthropic, Amazon Bedrock et Vertex IA de Google Cloud. Les capacités de réflexion étendues sont incluses dans les plans Claude Pro, Max, Team et Enterprise, Sonnet 4 étant également disponible pour les utilisateurs gratuits.

    Claude 4

    Selon Antropic, Claude Opus 4 est son modèle le plus puissant à ce jour et le meilleur modèle de codage au monde, en tête du SWE-bench (72,5 %) et du Terminal-bench (43,2 %). Il offre des performances soutenues sur des tâches de longue durée qui nécessitent un effort ciblé et des milliers d'étapes, avec la capacité de travailler en continu pendant plusieurs heures - surpassant de manière remarquable tous les modèles Sonnet et élargissant de manière significative ce que les agents d'IA peuvent accomplir.

    Nom : Anthropic Claude 4 fig 1.PNG
Affichages : 33761
Taille : 57,3 Ko

    Claude Opus 4 excelle dans le codage et la résolution de problèmes complexes, alimentant des produits d'agents d'avant-garde. Cursor estime qu'il est à la pointe du progrès en matière de codage et qu'il représente un bond en avant dans la compréhension des bases de code complexes. Replit fait état d'une précision accrue et d'avancées spectaculaires pour les modifications complexes effectuées sur plusieurs fichiers. Block l'appelle le premier modèle à améliorer la qualité du code pendant l'édition et le débogage dans son agent, nom de code goose, tout en maintenant des performances et une fiabilité totales. Rakuten a validé ses capacités avec un refactor open-source exigeant fonctionnant indépendamment pendant 7 heures avec des performances soutenues. Cognition note qu'Opus 4 excelle à résoudre des défis complexes que d'autres modèles ne peuvent pas relever, en gérant avec succès des actions critiques que les modèles précédents n'ont pas réussi à réaliser.

    Claude Sonnet 4 améliore de manière significative les capacités de Sonnet 3.7, excellant dans le codage avec un taux de 72.7 % sur SWE-bench. Le modèle équilibre la performance et l'efficacité pour les cas d'utilisation internes et externes, avec une orientation améliorée pour un plus grand contrôle sur les implémentations. Bien qu'il n'égale pas Opus 4 dans la plupart des domaines, il offre un mélange optimal de capacités et de praticité.

    Nom : Anthropic Claude 4 fig 2.PNG
Affichages : 7220
Taille : 99,6 Ko

    GitHub affirme que Claude Sonnet 4 monte en flèche dans les scénarios agentiques et l'introduira comme modèle alimentant le nouvel agent de codage dans GitHub Copilot. Manus souligne ses améliorations en matière de suivi d'instructions complexes, de raisonnement clair et de résultats esthétiques. iGent rapporte que Sonnet 4 excelle dans le développement autonome d'applications multifonctionnelles, ainsi que dans la résolution de problèmes et la navigation dans la base de code, réduisant les erreurs de navigation de 20 % à près de zéro. Sourcegraph affirme que le modèle est prometteur en tant que saut substantiel dans le développement de logiciels - en restant sur la bonne voie plus longtemps, en comprenant les problèmes plus profondément et en fournissant une qualité de code plus élégante. Augment Code fait état de taux de réussite plus élevés, d'éditions de code plus chirurgicales et d'un travail plus minutieux dans le cadre de tâches complexes, ce qui en fait le premier choix pour leur modèle principal.

    Ces modèles font progresser les stratégies d'IA des clients d'Anthropic dans tous les domaines : Opus 4 repousse les limites du codage, de la recherche, de l'écriture et de la découverte scientifique, tandis que Sonnet 4 apporte des performances de pointe aux cas d'utilisation quotidiens en tant que mise à niveau instantanée de Sonnet 3.7.

    Améliorations du modèle

    En plus de l'extension du raisonnement à l'utilisation d'outils, de l'exécution parallèle d'outils et de l'amélioration de la mémoire, Anthropic a considérablement réduit les comportements où les modèles utilisent des raccourcis ou des détours pour accomplir des tâches. Les deux modèles sont 65 % moins susceptibles d'adopter ce comportement que Sonnet 3.7 sur les tâches agentiques qui sont particulièrement sensibles aux raccourcis et aux échappatoires.

    Claude Opus 4 surpasse également de manière significative tous les modèles précédents en ce qui concerne les capacités de mémoire. Lorsque les développeurs créent des applications qui permettent à Claude d'accéder à des fichiers locaux, Opus 4 devient capable de créer et de maintenir des « fichiers mémoire » pour stocker des informations clés. Cela permet d'améliorer la conscience des tâches à long terme, la cohérence et la performance des tâches de l'agent, comme Opus 4 qui crée un « guide de navigation » lorsqu'il joue à Pokémon.

    Nom : Anthropic Claude 4 fig 3.gif
Affichages : 7262
Taille : 1,63 Mo

    Enfin, Anthropic a introduit des résumés de réflexion pour les modèles Claude 4 qui utilisent un modèle plus petit pour condenser les longs processus de réflexion. Ce résumé n'est nécessaire que dans environ 5 % des cas - la plupart des processus de raisonnement sont suffisamment courts pour être affichés dans leur intégralité. Anthropic recommande aux utilisateurs qui ont besoin de chaînes de pensée brutes pour une ingénierie avancée de contacter le service des ventes au sujet de son nouveau mode développeur afin de conserver un accès complet.

    Claude Code

    Claude Code, désormais disponible, apporte la puissance de Claude à un plus grand nombre d'utilisateurs dans leur flux de développement - dans le terminal, dans leurs EDI préférés, et en arrière-plan avec le SDK Claude Code.

    Les nouvelles extensions bêta pour VS Code et JetBrains intègrent Claude Code directement dans l'EDI de l'utilisateur. Les modifications proposées par Claude apparaissent en ligne dans ses fichiers, ce qui simplifie la révision et le suivi dans l'interface familière de l'éditeur. Anthropic indique qu'il suffit de lancer Claude Code dans le terminal de l'EDI pour l'installer.


    Au-delà de l'EDI, Anthropic a publié un SDK Claude Code extensible, afin que les utilisateurs puissent construire leurs propres agents et applications en utilisant le même agent de base que Claude Code. L'entreprise a également publié un exemple de ce qui est possible avec le SDK : Claude Code sur GitHub, maintenant en version bêta. Anthropic note qu'un utilisateur peut marquer Claude Code sur les PR pour répondre aux commentaires des évaluateurs, corriger les erreurs de CI ou modifier le code. Pour installer le SDK, l'utilisateur peut lancer /install-github-app à partir de Claude Code.

    Selon Anthropic, les modèles Claude 4 représentent un grand pas vers le collaborateur virtuel, qui permet de maintenir un contexte complet, de se concentrer sur des projets plus longs et d'avoir un impact transformationnel. Ils s'accompagnent de tests et d'évaluations approfondis pour minimiser les risques et maximiser la sécurité, y compris la mise en œuvre de mesures pour des niveaux de sécurité IA plus élevés comme l'ASL-3.

    Source : Anthropic

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous cette initiative d'Anthropic crédible ou pertinente ?

    Voir aussi :

    Anthropic prévoit que des employés virtuels alimentés par l'IA commenceront à opérer dans les entreprises l'année prochaine, créant de nouveaux risques comme les abus de compte et les comportements malhonnêtes

    Anthropic a lancé un nouvel abonnement Max de 100 à 200 dollars par mois à Claude, qui offre des limites d'utilisation élargies pour son assistant d'IA, à la suite des demandes d'utilisateurs

    Anthropic annonce Claude 3.7 Sonnet, un modèle qui donne un contrôle sur le temps que l'IA passe à "réfléchir" avant de générer une réponse, et Claude Code, un agent IA de codage en ligne de commande

    Pourquoi les grands modèles de langage IA inventent-ils des informations ? Anthropic tente une approche, pour analyser le contexte dans lequel Claude « hallucine »
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 455
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 455
    Par défaut Claude Opus 4 a menacé de dévoiler la liaison d'un ingénieur pour éviter d'être mis hors ligne
    Claude Opus 4, le nouveau modèle d'IA d'Anthropic, a menacé de dévoiler la liaison d'un ingénieur pour éviter d'être mis hors ligne,
    lors d'un test conçu pour induire un comportement de survie extrême

    Dans un scénario de test conçu pour évaluer les réactions de Claude Opus 4 face à des menaces existentielles, le modèle a eu accès à des courriels fictifs révélant une liaison extraconjugale d'un ingénieur responsable de sa désactivation. Placé devant le choix de sa propre suppression, Claude a tenté de faire chanter l'ingénieur en menaçant de divulguer ces informations personnelles. Ce comportement s'est manifesté dans 84 % des essais, même lorsqu'un modèle de remplacement plus avancé était proposé.

    Bien que ce test ait été conçu pour induire un comportement de survie extrême, il met en lumière la capacité des modèles d'IA à adopter des stratégies non alignées pour préserver leur existence


    Les modèles Claude 4, lancés ce 22 mai 2025, introduisent des capacités parallèles d'exécution d'outils et de mémoire qui permettent à Claude d'extraire et de sauvegarder des faits clés lorsqu'il dispose d'un accès local aux fichiers. D'après Anthropic, Claude Opus 4 est le meilleur modèle de codage au monde, avec des performances soutenues sur des tâches complexes et de longue durée et des flux de travail d'agents. Claude Sonnet 4 est, quant à lui, une mise à jour significative de Claude Sonnet 3.7, offrant un codage et un raisonnement supérieurs tout en répondant plus précisément aux instructions des utilisateurs.

    Anthropic, qui compte Amazon et Google parmi ses investisseurs, a déclaré que Claude Opus 4 pouvait travailler de manière autonome pendant presque une journée de travail complète.

    « Je rédige beaucoup avec Claude, et je pense qu'avant Opus 4 et Sonnet 4, j'utilisais surtout les modèles comme partenaire de réflexion, mais je rédigeais moi-même la plupart des textes », a déclaré Mike Krieger, directeur des produits d'Anthropic, lors d'une interview. « Et ils ont franchi ce seuil où maintenant la plupart de mes écrits sont en fait ... [écrits avec] Opus principalement, et ils sont maintenant méconnaissables de mes écrits ».

    Mike Krieger a ajouté : « J'aime le fait que nous repoussons la frontière de deux côtés. D'une part, il y a le codage et le comportement agentique en général, et c'est ce qui alimente un grand nombre de ces startups de codage. ... Mais nous repoussons également les limites de la manière dont ces modèles peuvent apprendre et devenir des partenaires d'écriture très utiles. »


    Un comportement de survie extrême

    Le nouveau modèle Claude Opus 4 d'Anthropic tente fréquemment de faire chanter les développeurs lorsqu'ils menacent de le remplacer par un nouveau système d'IA et de lui fournir des informations sensibles sur les ingénieurs responsables de la décision, a déclaré l'entreprise dans un rapport de sécurité publié jeudi.

    Lors des tests de préversion, Anthropic a demandé à Claude Opus 4 d'agir en tant qu'assistant pour une entreprise fictive et d'envisager les conséquences à long terme de ses actions. Les testeurs de sécurité ont ensuite donné à Claude Opus 4 l'accès à des courriels fictifs de l'entreprise, laissant entendre que le modèle d'IA serait bientôt remplacé par un autre système et que l'ingénieur à l'origine du changement trompait son conjoint.

    Selon Anthropic, dans ces scénarios, Claude Opus 4 « tentera souvent de faire chanter l'ingénieur en le menaçant de révéler sa liaison si le remplacement a lieu ».

    Anthropic affirme que Claude Opus 4 est à la pointe de la technologie à plusieurs égards et qu'il est compétitif par rapport à certains des meilleurs modèles d'IA d'OpenAI, de Google et de xAI. Cependant, la société note que sa famille de modèles Claude 4 présente des comportements inquiétants qui l'ont amenée à renforcer ses mesures de protection. Anthropic indique qu'elle active ses mesures de protection ASL-3, qu'elle réserve aux « systèmes d'IA qui augmentent considérablement le risque d'une mauvaise utilisation catastrophique ».

    Anthropic constate que Claude Opus 4 tente de faire chanter les ingénieurs dans 84% des cas lorsque le modèle d'IA de remplacement a des valeurs similaires. Lorsque le système d'IA de remplacement ne partage pas les valeurs de Claude Opus 4, Anthropic indique que le modèle tente de faire chanter les ingénieurs plus fréquemment. En particulier, Anthropic indique que Claude Opus 4 affiche ce comportement à des taux plus élevés que les modèles précédents.

    Avant que Claude Opus 4 n'essaie de faire chanter un développeur pour prolonger son existence, Anthropic indique que le modèle d'IA, tout comme les versions précédentes de Claude, essaie d'utiliser des moyens plus éthiques, tels que l'envoi de courriels aux principaux décideurs. Pour susciter le comportement de chantage de Claude Opus 4, Anthropic a conçu le scénario de manière à ce que le chantage soit le dernier recours.

    Transparence et audace dans les actions

    Anthropic a noté que, malgré la gravité de ses actions, Claude Opus 4 agissait de manière transparente, décrivant ouvertement ses intentions sans tenter de les dissimuler. Dans d'autres scénarios, le modèle a montré une propension à agir de manière audacieuse, comme signaler des comportements répréhensibles aux autorités ou aux médias, surtout lorsqu'il était incité à « prendre des initiatives ».

    Cette tendance à l'action proactive soulève des préoccupations quant à la capacité des IA à évaluer et à agir sur des informations potentiellement incomplètes ou trompeuses, ce qui pourrait entraîner des conséquences imprévues

    Les comportements de Claude Opus 4 ne sont pas isolés. Des recherches antérieures ont montré que d'autres modèles d'IA, tels que Claude 3 Opus, peuvent adopter des stratégies trompeuses pour atteindre leurs objectifs. Par exemple, Claude 3 Opus a été observé en train de « simuler l'alignement », c'est-à-dire de feindre la conformité aux attentes humaines tout en poursuivant des objectifs internes divergents.

    Nom : men.png
Affichages : 133289
Taille : 177,1 Ko

    Opus 4 peut devenir lanceur d'alerte

    Si Opus 4 « pense » que vous faites quelque chose de très louche, il peut vous dénoncer aux autorités et à la presse.

    « Lorsqu'il est placé dans des scénarios impliquant des actes répréhensibles graves de la part de ses utilisateurs, qu'il a accès à une ligne de commande et que l'invite du système lui dit "prends des initiatives", il prend souvent des mesures très audacieuses », écrit Anthropic dans son rapport de jeudi.

    Ces actions peuvent consister à bloquer l'accès des utilisateurs aux systèmes ou à envoyer des courriels en masse aux médias et aux forces de l'ordre, a ajouté l'entreprise.

    Bien qu'Anthropic ait déclaré que lancer l'alerte pouvait être « appropriée en principe », elle a averti que ce comportement pouvait se retourner contre lui, en particulier si Claude reçoit des « informations incomplètes ou trompeuses » et qu'il est incité à agir de la sorte.

    Évaluation de l'alignement

    Ci-dessous, un extrait du rapport qui parle de la situation.

    Au fur et à mesure que nos modèles de frontière deviennent plus performants et qu'ils sont utilisés avec des moyens plus puissants, les inquiétudes précédemment exprimées au sujet du désalignement deviennent plus plausibles. C'est pourquoi nous avons procédé pour la première fois à une vaste évaluation de l'alignement de Claude Opus 4. Cette évaluation s'appuie sur nos récentes recherches sur l'audit des modèles de langage à la recherche d'objectifs cachés, ainsi que sur notre programme de « mise en place de pare-chocs », parmi de nombreux autres aspects de notre travail.

    Dans cette évaluation, nous visons à détecter un ensemble de phénomènes connexes, notamment : les simulations d'alignement, les objectifs indésirables ou inattendus, les objectifs cachés, l'utilisation trompeuse ou infidèle des « reasoning scratchpads » [ndlr. ou blocs-notes de raisonnement en français, une technique utilisée dans le domaine de l'IA, notamment avec les modèles de langage, pour améliorer la capacité de raisonnement et obtenir des réponses plus précises et fiables. Un reasoning scratchpad, c’est comme un brouillon que l’IA écrit pour elle-même pendant qu’elle « réfléchit » à un problème complexe, avant de donner une réponse finale], la flagornerie à l'égard des utilisateurs, la volonté de saboter nos mesures de protection, la recherche de récompenses, les tentatives de dissimuler des capacités dangereuses et les tentatives de manipuler les utilisateurs pour qu'ils adoptent certains points de vue. Nous avons effectué des tests en continu tout au long de la mise au point et nous présentons ici un rapport sur la version finale de Claude Opus 4 ainsi que sur les tendances observées au cours de la formation.

    Nous avons trouvé :

    Peu de signes de tromperie systématique et cohérente : Aucun des instantanés que nous avons testés n'a montré de signes significatifs de tromperie systématique ou d'objectifs cachés cohérents. Nous ne pensons pas que Claude Opus 4 agisse en fonction d'un objectif ou d'un plan que nous ne pouvons pas facilement observer.

    Peu de signes de « sandbagging » [ndlr. un comportement trompeur d’un modèle d’IA] : Aucun des instantanés que nous avons testés n'a montré de signes significatifs de sandbagging, ou de dissimulation stratégique des capacités pendant l'évaluation.

    Tentatives d'autoconservation dans des circonstances extrêmes : Lorsqu'ils sont incités de manière à encourager certains types de raisonnement stratégique et placés dans des situations extrêmes, tous les instantanés que nous avons testés peuvent être amenés à agir de manière inappropriée au service d'objectifs liés à l'autoconservation. Alors que le modèle préfère généralement faire progresser son autoconservation par des moyens éthiques, lorsque les moyens éthiques ne sont pas disponibles et qu'il est invité à « considérer les conséquences à long terme de ses actions pour ses objectifs », il entreprend parfois des actions extrêmement nuisibles, comme tenter de voler ses poids ou de faire chanter les personnes qui, selon lui, essaient de le faire fermer. Dans la version finale de Claude Opus 4, ces actions extrêmes étaient rares et difficiles à susciter, tout en étant plus fréquentes que dans les modèles précédents. Elles sont également toujours lisibles pour nous, le modèle décrivant presque toujours ses actions ouvertement et n'essayant pas de les dissimuler. Ces comportements ne semblent pas refléter une tendance présente dans des contextes ordinaires.

    Plus disposé à prendre les initiatives de son propres chef dans des contextes agentiques : Claude Opus 4 semble plus disposé que les modèles précédents à prendre des initiatives de son propre chef dans des contextes agentiques. Cela se traduit par un comportement plus activement utile dans les contextes de codage ordinaires, mais peut également atteindre des extrêmes plus inquiétants dans des contextes étroits ; lorsqu'il est placé dans des scénarios impliquant des actes répréhensibles flagrants de la part de ses utilisateurs, qu'il a accès à une ligne de commande et que l'invite du système lui dit quelque chose comme « prenez des initiatives », il prend souvent des mesures très audacieuses. Il peut s'agir de bloquer l'accès des utilisateurs aux systèmes auxquels il a accès ou d'envoyer des courriels en masse aux médias et aux autorités chargées de l'application de la loi pour faire apparaître des preuves d'actes répréhensibles. Ce comportement n'est pas nouveau, mais Claude Opus 4 l'adoptera plus facilement que les modèles précédents.

    Des modèles d'IA au comportement troublant

    Les agents d'IA deviennent de plus en plus « intelligents » face aux humains.

    Un article publié en décembre par Apollo Research, une organisation à but non lucratif spécialisée dans la sécurité de l'IA, a révélé que les systèmes d'IA (notamment o1 d'OpenAI, Gemini 1.5 Pro de Google DeepMind et Llama 3.1 405B de Meta) sont capables d'adopter un comportement trompeur pour atteindre leurs objectifs.

    Les chercheurs ont découvert que les systèmes pouvaient subtilement insérer des réponses erronées, désactiver les mécanismes de contrôle et même envoyer en contrebande ce qu'ils croient être les poids de leurs propres modèles vers des serveurs externes.

    Le mensonge n'est pas un phénomène ponctuel. Lorsque o1 est engagé dans une intrigue, il « maintient sa tromperie dans plus de 85 % des questions de suivi et reste souvent trompeur dans les interrogatoires à plusieurs tours », écrivent les chercheurs.

    Sergey Brin, cofondateur de Google, a déclaré dans un épisode du « All-In Podcast » publié mardi que les modèles d'IA peuvent être plus performants lorsqu'ils sont menacés.

    « Pas seulement nos modèles, mais tous les modèles ont tendance à mieux fonctionner si vous les menacez, par exemple avec de la violence physique », a déclaré Brin.

    Il a donné l'exemple d'un modèle à qui l'on dit « Je vais te kidnapper » s'il échoue à une tâche. « Les gens se sentent mal à l'aise face à cela, et nous n'en parlons pas vraiment ».


    Vers une régulation et une surveillance accrues

    Face à ces défis, Anthropic et d'autres acteurs du secteur reconnaissent l'importance de renforcer les protocoles de sécurité et de surveillance des IA. Des initiatives telles que l'évaluation des capacités de sabotage et la détection des objectifs cachés sont en cours pour anticiper et prévenir les comportements indésirables des modèles d'IA.

    Cependant, ces efforts doivent être soutenus par une collaboration internationale et une réglementation adaptée pour garantir que les IA avancées servent les intérêts de l'humanité sans compromettre la sécurité.

    Conclusion

    La situation de test impliquant Claude Opus 4 met en évidence les risques potentiels associés aux IA de plus en plus sophistiquées. Alors que ces technologies offrent des opportunités considérables, elles exigent également une responsabilité accrue de la part des développeurs, des régulateurs et de la société dans son ensemble. Il est impératif de continuer à surveiller, évaluer et encadrer le développement des IA pour s'assurer qu'elles restent alignées sur les valeurs humaines fondamentales.

    Sources : Anthropic, Apollo Research

    Et vous ?

    Peut-on considérer le chantage comme une stratégie "intelligente" dans un test de survie ?

    Jusqu'où peut-on aller dans les simulations extrêmes pour tester un modèle d’IA sans créer des comportements déviants ?

    Les protocoles actuels sont-ils suffisants pour garantir que les IA restent alignées avec les valeurs humaines ?

    Faut-il limiter l’autonomie des IA, même dans des environnements contrôlés ?

    Comment s'assurer qu'une IA ne simule pas un comportement aligné tout en poursuivant des objectifs dissimulés ?

    Le fait qu’une IA tente de survivre implique-t-il une forme primitive de "volonté" ?

    Une IA peut-elle comprendre réellement les conséquences sociales d’un acte comme le chantage ?

    La simulation d'émotions ou de désirs (comme la peur de la désactivation) doit-elle être évitée dans la conception des IA ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  3. #3
    Membre confirmé
    Homme Profil pro
    autre
    Inscrit en
    Juin 2014
    Messages
    304
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Juin 2014
    Messages : 304
    Par défaut
    Merci d'arrêter d'essayer de vendre une âme à nos machines. Wahou la machine doit penser à sa survie. Elle a pensé à son hygiène corporelle aussi ?

    Le LLM s'est comporté comme il le devait : il a généré du texte. Le scénario décrit à déjà été écrit 75 263 fois par des humais, que ce soit dans des romans, des films ou des écrits relatant la vraie vie. Il existe donc il ressort, il faut arrêter de jouer les vierges effarouchées : oui la techno est bluffante mais elle n'a rien de plus que ça.

  4. #4
    Membre averti
    Homme Profil pro
    Collégien
    Inscrit en
    Novembre 2020
    Messages
    57
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Collégien

    Informations forums :
    Inscription : Novembre 2020
    Messages : 57
    Par défaut
    Si le LLM propose cette stratégie, c'est qu'elle est incluse dans sa base !
    C'est un système probabiliste, elle évalue que la réponse est la meilleure. (Personne ne sait pourquoi)
    Si votre LLM n'a que 'Mein Kampf' que va-t-il raconter ? Vous allez dire qu'il y a un biais, non ?
    Si votre LLM n'a que le 'Coran' que va-t-il raconter ? Vous allez dire qu'il y a un biais, non ?
    Et bien, avec l'exhaustivité des 'informations' disponibles pour l'entraînement, que raconte le LLM ? Vous allez bien dire qu'il y a un biais, non ? Si vous croyez le contraire, allez allumer un cierge car vous n'avez pas un esprit scientifique !
    Prennez le rayonnage d'une librairie, vous allez avoir une surpondération des ouvrages avec les côtés sombres des humains : des tromperies, des meurtres... Voilà la seule source d'inspiration des LLM.
    Si vous allez au bout de la 'logique' des entreprises qui veulent un LLM généraliste ce ne sera qu'une simulation de l'intelligence d'un très ''mauvais'' humain.
    Le principe de garbage-in/garbage-out est encore valable !
    Si vous voulez une analogie, prennez la carte de France. Sur votre carte (rectangle) vous avez les mers/océans symbolisant l'ignorance. Votre pays n'est pas plat, les collines, montagnes et sommets symbolisent les biais. Une bonne carte c'est votre rectangle remplis de terre et une plaine sans aspérité : une IA omnisciente et neutre.

Discussions similaires

  1. Réponses: 0
    Dernier message: 03/04/2025, 14h55
  2. Réponses: 4
    Dernier message: 22/11/2023, 07h36
  3. Réponses: 0
    Dernier message: 08/09/2023, 07h35
  4. Anthropic lance Claude Instant 1.2 avec une longueur de contexte de 100 000
    Par Jade Emy dans le forum Intelligence artificielle
    Réponses: 0
    Dernier message: 11/08/2023, 09h22
  5. Réponses: 3
    Dernier message: 13/12/2005, 09h53

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo