Mythos, le modèle IA trop dangereux pour être publié, accessible à des inconnus :
comment un groupe de curieux sur Discord a contourné le dispositif de contrôle dans la chaîne de sous-traitance d'Anthropic
Deux semaines après avoir annoncé en grande pompe Mythos, son modèle d'intelligence artificielle conçu pour la cybersécurité défensive, Anthropic se retrouve face à un scénario embarrassant : un groupe de particuliers non autorisés aurait réussi à accéder à l'outil, contournant la stratégie de diffusion contrôlée que la société présentait comme une réponse responsable à la dangerosité de sa propre technologie. L'incident pose des questions qui dépassent largement le cas Anthropic et touchent aux fondements même de la gouvernance des modèles d'IA dits à haut risque.
Pour comprendre la portée de cet accès non autorisé, il faut d'abord saisir ce qu'est Claude Mythos Preview et pourquoi Anthropic a fait un tel effort de communication lors de son annonce le 7 avril 2026. Il s'agit d'un modèle de langage à usage général qui présente des capacités remarquables dans les tâches de sécurité informatique Anthropic, au point qu'Anthropic a elle-même choisi de ne pas le rendre disponible au grand public.
Les démonstrations techniques publiées par l'équipe rouge d'Anthropic ont de quoi saisir même les professionnels aguerris. Mythos Preview a identifié et exploité de façon entièrement autonome une vulnérabilité d'exécution de code à distance vieille de 17 ans dans FreeBSD, permettant à n'importe qui d'obtenir les droits root sur une machine exécutant NFS. Dans un autre cas, le modèle a produit un exploit pour navigateur web enchaînant quatre vulnérabilités distinctes, avec une technique d'échappement des bacs à sable du moteur de rendu et du système d'exploitation.
L'Institut britannique de sécurité de l'IA (UK AI Security Institute) a qualifié Mythos de premier modèle d'IA capable de compléter son test simulant une attaque prenant le contrôle d'un réseau entier Foreign Policy, avec toutefois la réserve que les environnements de test utilisés ne reproduisaient pas fidèlement les défenses de systèmes réels. Mythos Preview a déjà identifié des milliers de vulnérabilités de haute gravité, y compris dans chaque système d'exploitation majeur et chaque navigateur web.
Face à ces capacités jugées trop dangereuses pour une diffusion publique, Anthropic a opté pour une stratégie de déploiement restreint. Le modèle est accessible dans le cadre d'une initiative baptisée Project Glasswing, impliquant 12 organisations partenaires pour des travaux de sécurité défensive sur des logiciels critiques, avec 40 organisations ayant accès à la préversion au total. Parmi elles figurent Microsoft, Apple, Google, CrowdStrike et JPMorgan Chase. Anthropic engage jusqu'à 100 millions de dollars en crédits d'utilisation pour ces acteurs, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source comme OpenSSF et la Fondation Apache. Le principe : donner aux défenseurs une longueur d'avance avant que des modèles aux capacités équivalentes ne tombent entre les mains d'acteurs malveillants.
La société précise qu'elle n'a pas explicitement entraîné Mythos Preview pour ces capacités offensives : elles sont apparues comme une conséquence indirecte des améliorations générales en matière de code, de raisonnement et d'autonomie. Les mêmes progrès qui rendent le modèle plus efficace pour corriger des vulnérabilités le rendent également plus efficace pour les exploiter.
Logan Graham, qui dirige l'équipe rouge offensive d'Anthropic, résume le problème avec une clarté désarmante : même si Mythos ne devait jamais être rendu public, il s'attend à ce que les concurrents d'Anthropic, y compris ceux basés en Chine, publient des modèles aux capacités de piratage comparables dans les mois ou années à venir.
Le verrou s'ouvre le jour même de l'annonce
C'est précisément cette stratégie de maîtrise que vient contredire le rapport de Bloomberg publié le 21 avril. Un petit groupe d'utilisateurs non autorisés a accédé à Mythos le jour même où Anthropic annonçait son plan de diffusion restreinte. Selon les informations recueillies par l'agence, ces individus font partie d'un forum privé en ligne, et leur accès aurait été obtenu via l'environnement d'un prestataire tiers travaillant pour Anthropic.
Le groupe a employé plusieurs stratégies pour accéder au modèle, notamment en utilisant les accréditations d'une personne actuellement employée chez un sous-traitant travaillant pour Anthropic, personne qui a elle-même fourni des informations à Bloomberg dans le cadre de son enquête. Les membres du groupe appartiennent à un canal Discord consacré à la recherche d'informations sur les modèles d'IA non publiés.
La méthode d'accès initiale révèle une forme de déduction technique plutôt qu'une attaque sophistiquée : le groupe a formulé une hypothèse éclairée sur l'emplacement en ligne du modèle, en s'appuyant sur leur connaissance du format qu'Anthropic utilise habituellement pour ses autres modèles. En d'autres termes, la surface d'attaque n'était pas un système ultra-sécurisé mais une convention de nommage prévisible; une faille de sécurité par l'obscurité que des observateurs attentifs pouvaient déduire.
Le groupe a fourni des preuves à Bloomberg sous la forme de captures d'écran et d'une démonstration en direct du logiciel. Leur motivation déclarée : être « intéressés par l'exploration de nouveaux modèles, pas par le chaos ». Aucune activité malveillante n'a été documentée jusqu'à présent.
La réponse d'Anthropic : investigation en cours, systèmes intacts
La porte-parole d'Anthropic a communiqué une réaction mesurée, dans les termes habituels de ce type d'incident. « Nous enquêtons sur un rapport faisant état d'un accès non autorisé à Claude Mythos Preview via l'un de nos environnements de prestataires tiers », a-t-elle déclaré. La société indique n'avoir trouvé jusqu'à présent aucune preuve que l'activité non autorisée ait eu un impact sur les systèmes d'Anthropic.
La distinction est importante : ce qui est mis en cause n'est pas une intrusion dans les infrastructures centrales d'Anthropic, mais une faille dans la chaîne de sous-traitance. L'allégation pointe vers un possible abus d'accès en dehors du réseau principal d'Anthropic, et non une compromission confirmée des défenses internes de l'entreprise. Ce cadrage, classique dans les incidents de ce type, permettra vraisemblablement à Anthropic de minimiser la portée opérationnelle de l'accès, mais ne règle pas la question de fond.
La faille du maillon faible : les tiers au cœur du problème
L'incident s'inscrit dans une dynamique bien connue de la sécurité des systèmes d'information : ce ne sont pas toujours les infrastructures centrales qui cèdent, mais les acteurs périphériques qui y sont connectés. La chaîne de sous-traitance représente, depuis des années, le principal vecteur d'incidents dans les déploiements d'IA en entreprise.
Ce problème structurel n'est pas propre à Anthropic. Les grands déploiements technologiques s'appuient invariablement sur un réseau de prestataires, intégrateurs et développeurs tiers dont les pratiques de sécurité sont hétérogènes. Pour un modèle comme Mythos, dont la dangerosité justifie une diffusion restreinte à une cinquantaine d'organisations de confiance à l'échelle mondiale, la question de la sécurité de chaque nœud de la chaîne devient critique.
L'épisode met en lumière une tension persistante : comment un modèle frontier restrictif peut-il rester inaccessible alors même que des dizaines d'organisations et leurs prestataires y ont accès ? La réponse est qu'il ne le peut pas totalement et que la stratégie de diffusion contrôlée repose sur une hypothèse de contrôle qui s'avère plus fragile qu'annoncée.
Bruce Schneier et les critiques : le jeu de la communication de risque
L'incident survient dans un contexte où la stratégie de communication d'Anthropic autour de Mythos faisait déjà l'objet d'un examen critique dans la communauté de la sécurité. Bruce Schneier, l'une des voix les plus respectées de la cryptographie et de la sécurité des systèmes, avait qualifié l'annonce de Mythos de « coup de communication » par Anthropic, notant que de nombreux journalistes avaient repris sans distance critique les éléments de langage de la société.
La technologie et les sociétés ont une longue histoire à mettre en garde contre les dangers de leurs propres produits, OpenAI ayant averti dès 2019 que son modèle GPT-2 était « trop dangereux pour être publié » avant de le diffuser largement quelques mois plus tard. L'auto-restriction présentée comme vertu est aussi un outil marketing : elle positionne l'entreprise comme acteur responsable tout en entretenant le mystère et l'aura de puissance autour du produit.
Des analystes ont néanmoins salué la décision d'Anthropic de constituer une coalition défensive avant toute diffusion large, estimant qu'il s'agit d'un précédent sans équivalent dans l'histoire des outils de sécurité offensifs : ni Metasploit, ni Cobalt Strike, ni les outils de la NSA divulgués par les Shadow Brokers n'ont été accompagnés d'une telle réponse défensive coordonnée au moment de leur émergence publique. Ce point mérite d'être reconnu sans être idéalisé.
Voici un extrait des propos de Bruce Schneier :
« Il y a beaucoup à dire à ce sujet, et j'espère écrire une analyse plus approfondie la semaine prochaine, mais voici quelques observations rapides.
« Premièrement : Il s'agit clairement d'une opération de relations publiques de la part d'Anthropic – et ça a fonctionné. De nombreux journalistes reprennent en chœur les arguments d'Anthropic, sans les examiner de manière critique. OpenAI, sans doute agacée par l'engouement médiatique autour du nouveau modèle d'Anthropic et désireuse de se faire remarquer, a annoncé que son modèle est tout aussi inquiétant et qu'il ne sera pas non plus rendu public.
« Deuxièmement : Ces modèles démontrent une sophistication accrue dans leurs capacités de cyberattaque. Ils créent des exploits efficaces – en exploitant les vulnérabilités qu'ils découvrent et en les rendant opérationnelles – sans intervention humaine. Ils peuvent identifier des vulnérabilités plus complexes*: enchaîner plusieurs failles de corruption de mémoire, par exemple. Et ils peuvent accomplir davantage de tâches avec une simple instruction, sans nécessiter d'orchestration ni d'infrastructure de configuration d'agents.
« Troisièmement : Anthropic a peut-être une bonne équipe de relations publiques, mais le problème ne vient pas de Mythos Preview. La société de sécurité Aisle a réussi à reproduire les vulnérabilités découvertes par Anthropic à l’aide de modèles publics plus anciens et moins coûteux. Or, il y a une différence entre découvrir une vulnérabilité et la transformer en attaque. Cela met en évidence un avantage actuel pour la défense. Il est plus facile pour une IA de détecter une vulnérabilité en vue de la corriger que de la détecter puis de l’exploiter. Cet avantage est susceptible de s’amenuiser à mesure que des modèles toujours plus puissants seront mis à la disposition du grand public.
« Quatrièmement : Tous ceux qui s’inquiètent des conséquences de cette situation ont raison quant à l’ampleur du problème, même s’il est impossible de prédire avec exactitude le calendrier. Le changement radical vient peut-être de se produire avec les nouveaux modèles d’Anthropic et d’OpenAI. Il a peut-être eu lieu il y a six mois. Il se produira peut-être dans six mois. Il se produira, j’en suis certain, et plus tôt que nous ne le pensons. Nous ne pouvons pas prédire dans quelle mesure ces modèles vont encore progresser, mais le logiciel semble être un langage spécialisé particulièrement adapté aux IA. »
Les implications pour la gouvernance de l'IA à haut risque
Ce que révèle véritablement l'accès non autorisé à Mythos, c'est l'absence d'un cadre institutionnel robuste pour la gouvernance des modèles d'IA à capacités offensives. La longueur d'avance défensive que procure le Projet Glasswing se mesure en mois et son efficacité dépend entièrement du sérieux avec lequel l'industrie, la communauté open source, les opérateurs d'infrastructures critiques et les gouvernements exploitent la fenêtre d'opportunité ainsi créée.
La Chine, la Russie et d'autres acteurs étatiques sophistiqués ont massivement investi dans l'IA et les opérations cyber offensives. Contrairement à Anthropic, ils n'ont aucune incitation à divulguer ce qu'ils trouvent. Et dans les démocraties occidentales elles-mêmes, les capacités développées à des fins défensives tendent historiquement à être réaffectées à des usages offensifs une fois absorbées par les agences de renseignement, avec les risques de prolifération incontrôlée que cela implique.
L'épisode Mythos et la divulgation précédente par Anthropic en novembre d'une campagne de cyber-espionnage assistée par IA attribuée à un groupe parrainé par l'État chinois montrent une entreprise qui tente de sécuriser un modèle puissant avant sa diffusion plus large, tout en étant confrontée à la réalité que les contrôles d'accès peuvent faillir même quand le système central reste intact.
La véritable question n'est pas de savoir si un groupe de curieux a navigué sans permission dans un environnement de prévisualisation, mais plutôt de savoir si l'architecture de gouvernance actuelle, reposant sur la bonne volonté des entreprises et la solidité de leurs chaînes de sous-traitance, est à la hauteur des risques que portent les modèles d'IA de prochaine génération.
Sources : Bloomberg, Bruce Schneier, vidéo dans le texte
Et vous ?
La stratégie de diffusion contrôlée, donner accès à quelques dizaines d'organisations de confiance, est-elle réellement une barrière de sécurité, ou surtout un outil de positionnement concurrentiel pour Anthropic ?
Peut-on raisonnablement sécuriser un modèle d'IA à capacités offensives dans un écosystème de sous-traitance aussi étendu que celui d'un grand groupe technologique mondial ?
L'incident Mythos plaide-t-il pour un régulateur indépendant ayant autorité sur la diffusion des modèles à haut risque, ou risque-t-on de créer une bureaucratie inefficace face à la vélocité du secteur ?
La communication d'Anthropic autour de la « dangerosité » de Mythos sert-elle réellement la sécurité collective, ou crée-t-elle une demande supplémentaire de la part d'acteurs cherchant précisément à accéder à ce qui est interdit ?
Si des modèles aux capacités équivalentes à Mythos émergent inévitablement chez d'autres acteurs, y compris dans des États sans contraintes éthiques, la stratégie de retenue d'Anthropic a-t-elle un sens à long terme ?





La stratégie de diffusion contrôlée, donner accès à quelques dizaines d'organisations de confiance, est-elle réellement une barrière de sécurité, ou surtout un outil de positionnement concurrentiel pour Anthropic ?
Répondre avec citation


Pierre Louis Chevalier,










Partager