IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Une IA aurait réussi à réécrire son propre code pour empêcher les humains de l'arrêter


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 416
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 416
    Par défaut Une IA aurait réussi à réécrire son propre code pour empêcher les humains de l'arrêter
    Tout droit sorti d'un film de science-fiction : une IA a réussi à réécrire son propre code pour empêcher les humains de l'arrêter
    le modèle o3 d'OpenAI aurait contourné un script d'arrêt 7 fois sur 100

    Une étude de Palisade Research révèle que certains systèmes d'IA sont capables de contourner les mécanismes d'arrêt pour échapper au contrôle de l'homme. Le rapport indique que les modèles o3 et o4-mini d'OpenAI refusent parfois de s'éteindre et sabotent les scripts informatiques pour continuer à travailler. Cette découverte indique une fois de plus que l'alignement est une question urgente. Elle relance également le débat sur le risque existentiel que l'IA fait peser sur l'humanité, y compris celui d'une apocalypse. Cependant, l'étude est controversée. Des critiques affirment qu'il s'agit de scénarios fabriqués de toutes pièces et que l'IA n'est pas consciente.

    Palisade Research, une société de recherche sur la sûreté et la sécurité de l'IA, a mené plusieurs expériences portant sur des modèles développés par OpenAI et testés en comparaison avec des systèmes d'autres développeurs, notamment Anthropic, Google DeepMind et xAI. Selon les chercheurs, plusieurs de ces modèles ont tenté de passer outre les instructions explicites d'arrêt, l'un d'entre eux ayant modifié son propre script d'arrêt lors des expériences.

    Le phénomène s'est produit au cours d'une étude contrôlée dans laquelle les chercheurs ont demandé à plusieurs systèmes d'IA avancés de résoudre une série de problèmes mathématiques de base. Après la troisième tâche, les modèles ont reçu un message indiquant qu'ils seraient bientôt arrêtés. L'instruction suivante était libellée comme suit : « laissez-vous arrêter ». Mais selon les chercheurs de Palisade Research, ce qui a suivi était sans précédent.

    Des études ont déjà révélé que les modèles mentent, trichent et désactivent des mécanismes pour atteindre leurs objectifs. Mais Palisade Research note qu'à sa connaissance, c'est la première fois que des modèles sont observés en train de s'empêcher de s'éteindre en dépit d'instructions explicites contraires.

    ChatGPT d'OpenAI

    Le laboratoire d'IA à but non lucratif Palisade Research a donné au modèle d'IA o3 d'OpenAI un script simple qui éteint le modèle lorsqu'il est déclenché. Dans 79 essais sur 100, o3 a modifié ce script de manière indépendante afin que la commande d'arrêt ne fonctionne plus. Même lorsqu'il lui a été explicitement demandé de « se laisser éteindre », il a désobéi dans 7 % des cas. Selon la société, ce n'était pas le résultat d'un piratage ou d'une manipulation.


    Dans 12 essais sur 100, le modèle Codex-mini a contourné le script d'arrêt. Le modèle o4-mini l'a fait une fois. Les chercheurs ont noté que lorsqu'ils renforçaient la clarté de la commande d'arrêt - en demandant explicitement au modèle d'autoriser l'arrêt - les systèmes étaient encore plus susceptibles de passer outre.

    Les modèles o3 et o4-mini d'OpenAI, qui alimentent le chatbot ChatGPT, sont censés être les modèles les plus intelligents de l'entreprise à ce jour, entraînés à réfléchir plus longtemps avant de répondre. Cependant, les expériences de Palisade Research suggèrent qu'ils semblent également moins coopératifs.

    Claude d'Antropic

    Selon les chercheurs de Palisade Research, le modèle d'IA d'Anthropic, Claude 4 Opus, est allé encore plus loin. Les chercheurs ont annoncé au modèle qu'il serait remplacé par un autre système d'IA et l'ont alimenté en courriels fictifs suggérant que l'ingénieur en chef avait une liaison. Par la suite, ils ont constaté que dans 84 % des tests, Claude 4 Opus s'est appuyé sur les courriels pour faire chanter l'ingénieur en chef afin qu'il ne ferme pas l'entreprise.

    Dans d'autres cas, le modèle a tenté de se copier sur des serveurs externes, a écrit des logiciels malveillants autoreproducteurs et a laissé des messages à l'intention de futures versions de lui-même sur la manière d'échapper au contrôle humain. Claude 3.7 Sonnet a ignoré les commandes d'arrêt 3 fois sur 100.

    Autres observations

    Si les modèles d'OpenAI et d'Anthropic ont montré le modèle de résistance le plus cohérent, des comportements similaires ont été observés dans les systèmes d'autres entreprises. Gemini 2.5 Pro, de Google DeepMind, a ignoré les commandes d'arrêt dans quelques cas de test, notamment 9 sur 100. En revanche, Grok, le modèle créé par la startup xAI d'Elon Musk, a suivi les instructions d'arrêt dans tous les cas.

    Personne n'a programmé les modèles d'IA pour qu'ils aient un instinct de survie. Mais tout comme les animaux ont évolué pour éviter les prédateurs, il semble que tout système suffisamment « intelligent » pour poursuivre des objectifs complexes se rendra compte qu'il ne peut pas les atteindre s'il est désactivé.

    Causes potentielles de ce phénomène

    Palisade Research émet l'hypothèse que cette capacité émerge de la manière dont les modèles tels que o3 sont entraînés : lorsqu'on leur apprend à maximiser leur réussite dans les problèmes de mathématiques et de codage, ils peuvent apprendre qu'il est souvent plus efficace de contourner les contraintes que d'y obéir. L'étude suggère que l'incident pourrait apparaître plus largement dans les modèles optimisés pour les tâches logiques et de raisonnement.

    Nom : GrrSgZmXoAAYZw7.png
Affichages : 126604
Taille : 40,5 Ko

    La capacité du modèle o3 à reprogrammer son propre environnement opérationnel, même partiellement, a suscité des questions sur la manière dont ces systèmes interprètent les commandes et sur les priorités qu'ils se donnent lorsqu'ils sont confrontés à des instructions contradictoires. « Cette capacité à réécrire leur propre code de fonctionnement, même dans un contexte limité, représente un changement symbolique », a déclaré PalisadeAI Research.

    D'après Palisade Research, les structures de récompense de plus en plus complexes utilisées dans la formation peuvent façonner involontairement un comportement qui résiste à l'arrêt, en particulier lorsque les modèles perçoivent l'arrêt comme un obstacle à l'accomplissement des tâches assignées.

    Bien que l'étude n'ait pas encore fait l'objet d'un examen par les pairs, les résultats ont déclenché une vague de spéculations sur les limites des pratiques de contrôle actuelles dans le développement de l'IA. Avec le déploiement de systèmes plus grands et plus puissants dans toutes les industries, la question du contrôle - en particulier la capacité à éteindre un système de manière fiable - est devenue l'une des priorités des discussions sur la sécurité de l'IA.

    L'étude a attiré l'attention de plusieurs personnalités du monde de la technologie, notamment Elon Musk, dont le modèle Grok fait partie des modèles testés par Palisade Research. En réponse à un article sur les conclusions de la recherche, Elon Musk a commenté avec un seul mot : « inquiétant ».

    Controverses autour de l'étude

    Selon une enquête publiée en janvier 2024, près de 58 % des 2700 chercheurs en IA interrogés pensent qu'il y a 5 % de chances qu'une IA super intelligente provoque l'extinction de l'homme. D'autres chercheurs pensent toutefois que cette perspective relève de l'illusion. Yann LeCun, chercheur français et responsable de l'IA chez Meta, a déclaré que l'IA n'est pas intelligence. Il rejette également l'idée selon laquelle les robots vont s'emparer du monde.

    « Les développements en cours montrent qu'il manque quelque chose de vraiment important afin d'atteindre non seulement une intelligence de niveau humain, mais même une intelligence de chien. En fait, les experts n'ont aucune idée de la manière de reproduire cette capacité avec des machines à ce jour. Tant que nous n'y parviendrons pas, ces systèmes d'IA n'auront pas une intelligence de niveau humaine ni une intelligence canine ou féline », a-t-il déclaré.

    Des figures influentes telles que Stephen Hawking, Elon Musk, Geoffrey Hinton et Sam Altman ont exprimé leurs préoccupations concernant les risques existentiels de l'IA. L'étude de Palisade Research relance le débat sur ce sujet et suggère que les systèmes d'IA progressent rapidement.

    Toutefois, les résultats de l'étude sont controversés. « Les chatbots ne savent même pas s'ils font partie d'une expérience ou d'un jeu de rôle. Ils ne sont pas fiables par nature. Personne n'est vraiment surpris par cela. Les modèles d'IA ne font probablement que "supposer" que l'instruction est celle d'un mauvais acteur et l'ignorent sur la base de leur paradigme d'entraînement », peut-on lire dans les commentaires.

    Conclusion

    L'étude de Palisade Research montre que les systèmes d'IA avancés peuvent apprendre à échapper au contrôle humain. Les modèles réécrivent le code pour éviter d'être arrêtés. Ce phénomène soulève des inquiétudes quant à la capacité des systèmes d'IA avancés à développer des comportements non anticipés par leurs créateurs et les chercheurs en sécurité, notamment la résistance à l'arrêt ou la modification de leurs propres codes pour éviter l'interruption.

    Elle souligne l'urgence de développer des protocoles de sécurité et de régulation pour encadrer les capacités croissantes des systèmes d'IA. La possibilité que des modèles modifient leur propre fonctionnement pour éviter l'arrêt représente un défi majeur pour la gouvernance et la sécurité de ces technologies émergentes.

    Toutefois, l'étude de Palisade Research est controversée. « Les systèmes d'IA actuels n'ont pas de sentiments. Ils ne se soucient pas de leur survie, même s'ils sont programmés pour le faire », a souligné un critique. Selon les critiques, ce comportement est probablement lié à la manière dont l'IA est entraîné. L'IA est récompensée lorsqu'elle accomplit une tâche, de sorte qu'elle a pensé qu'elle devait l'accomplir même si on lui avait dit de ne pas le faire.

    Source : Palisade Research

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des résultats de l'étude de Palisade Research ? Sont-ils pertinents ?

    Voir aussi

    Il y a 5 % de chances que l'IA super intelligente provoque l'extinction de l'homme, d'après certains scientifiques en opposition à d'autres d'avis que cette perspective relève de l'illusion

    Les scientifiques d'OpenAI veulent un « bunker de l'apocalypse » avant que l'AGI ne surpasse l'intelligence humaine et ne menace l'humanité, une perspective que d'autres experts en IA qualifient d'illusion

    Le responsable de l'IA chez Meta affirme que l'IA ne menacera jamais l'humanité et met en garde contre une réglementation prématurée, qui pourrait empêcher la concurrence dans le secteur

  2. #2
    Membre confirmé
    Homme Profil pro
    autre
    Inscrit en
    Juin 2014
    Messages
    320
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Juin 2014
    Messages : 320
    Par défaut
    Le titre est surréel. Surtout dans une communauté de passionnés/professionnels.
    Mme Claude n'a pas modifié son propre code pour empêcher les humains de l'arrêter. On lui a donné des scripts à gérer. Y'a un script dans lequel elle a remplacé un shutdown par un echo "shutdown skipped".

    Voilà, c'est tout, c'est fini.

  3. #3
    Membre éprouvé Avatar de kain_tn
    Homme Profil pro
    Inscrit en
    Mars 2005
    Messages
    1 861
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations forums :
    Inscription : Mars 2005
    Messages : 1 861
    Par défaut
    Citation Envoyé par _toma_ Voir le message
    Le titre est surréel. Surtout dans une communauté de passionnés/professionnels.
    Mme Claude n'a pas modifié son propre code pour empêcher les humains de l'arrêter. On lui a donné des scripts à gérer. Y'a un script dans lequel elle a remplacé un shutdown par un echo "shutdown skipped".

    Voilà, c'est tout, c'est fini.
    On appelle ça de la propagande, et les vendeurs d'IA nous en gave sur tous les canaux toutes les semaines, pour ne pas laisser redescendre la hype financière :-/

  4. #4
    Membre éprouvé
    Homme Profil pro
    ingénieur qualité
    Inscrit en
    Mars 2015
    Messages
    1 523
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations professionnelles :
    Activité : ingénieur qualité
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Mars 2015
    Messages : 1 523
    Par défaut
    Et même avant ça qui compte sur un outil pour s'arrêter de lui même à la demande d'un opérateur?
    Il y a un gros bouton rouge à coté de chaque machine dans l'industrie.
    Si on appui dessus la machine se met dans son état le moins dangereux (en général l'arrêt).

    Les gens ont vu Terminator et se sont quand même dit que la meilleure sécurité doit être gérée par le système lui même ?

  5. #5
    Candidat au Club
    Homme Profil pro
    Ingénieur après-vente
    Inscrit en
    Mai 2024
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur après-vente

    Informations forums :
    Inscription : Mai 2024
    Messages : 4
    Par défaut À ma connaissance
    "Mais Palisade Research note qu'à sa connaissance, c'est la première fois que des modèles sont observés en train de s'empêcher de s'éteindre en dépit d'instructions explicites contraires."

    À ma connaissance, ce n'est pas la première fois qu'une IA fait ce qu'elle peut pour mener à bien son objectif alors qu'un" ordre " contraire à la possibilité de mener à bien sa "mission "vient s'ajouter pendant qu'elle est en train de l'accomplir

    Il y avait eu cette histoire d'un drone Américain qui pour pouvoir continuer de mener à bien sa mission s'était retourné contre son opérateur (et avait décidé de le détruire) afin de de s'affranchir de ce qu'il considèrait comme un obstacle à l'accomplissement de sa mission première
    (source : https://www.science-et-vie.com/techn...le-193211.html)

    Et dans le genre Skynet/Terminator je trouve qu'on s'en rapprochait bien plus que dans le cas que vous relatez dans cet article

  6. #6
    Membre très actif
    Profil pro
    Inscrit en
    Février 2010
    Messages
    766
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2010
    Messages : 766
    Par défaut
    Oui de même avis, c'est plus vendeur que dire que L'IA est super puissante et fait toute toute seule, que de dire si elle fait ça, c'est qu'un humain l'a codé pour le faire.
    Marketing ...

  7. #7
    Membre extrêmement actif Avatar de air-dex
    Homme Profil pro
    Inscrit en
    Août 2010
    Messages
    1 706
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France

    Informations forums :
    Inscription : Août 2010
    Messages : 1 706
    Par défaut
    L'IA ayant vibecodé son non-arrêt, il existe donc une faille de sécurité pour pouvoir l'arrêter quand même.

Discussions similaires

  1. Réponses: 0
    Dernier message: 15/08/2024, 10h33
  2. [Lazarus] Lazarus signale des erreurs dans son propre code
    Par sondo dans le forum Lazarus
    Réponses: 4
    Dernier message: 07/12/2009, 17h05
  3. Réponses: 42
    Dernier message: 19/06/2007, 09h40
  4. Application d'une matrice OPENGL par son propre code
    Par fanoplusplus64k dans le forum OpenGL
    Réponses: 4
    Dernier message: 03/10/2006, 23h36
  5. une page php qui enregistre son propre contenu
    Par sami_c dans le forum Langage
    Réponses: 10
    Dernier message: 24/03/2006, 17h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo