Anthropic abandonne sa promesse de sécurité au milieu d'un combat avec le Pentagone sur la ligne rouge de l'I

**Anthony** · 25/11/2025, 12h45

Anthropic lance Claude Opus 4.5, son dernier modèle d'IA qui excelle dans le codage, l'utilisation d'ordinateurs et l'assistance aux utilisateurs pour les tâches professionnelles complexes, selon la société

Anthropic a lancé Claude Opus 4.5, son dernier modèle d'intelligence artificielle (IA) de pointe conçu pour améliorer la productivité dans le domaine du codage, des tâches d'entreprise et de la recherche approfondie. S'appuyant sur ses prédécesseurs, Opus 4.5 promet des améliorations notables en termes d'efficacité et de polyvalence, en particulier pour les développeurs, les analystes financiers et les consultants. Cette sortie marque la troisième introduction majeure d'un modèle par Anthropic en deux mois, consolidant ainsi sa position dans le paysage en constante évolution de l'IA.

Anthropic est une start-up spécialisée dans l'IA fondée en 2021 par un groupe d'anciens chercheurs et cadres d'OpenAI. La société est surtout connue pour avoir développé une famille de modèles d'IA appelée Claude. Elle attribue de nouveaux numéros aux modèles à mesure qu'ils évoluent au fil des générations, mais le plus grand modèle de la famille est généralement appelé Opus, le modèle de taille moyenne est appelé Sonnet et le plus petit modèle est Haiku. Le dernier modèle Opus, lancé par Anthropic en août, s'appelait Claude Opus 4.1. La start-up a par ailleurs dévoilé son modèle Claude Sonnet 4.5 fin septembre, suivi de son modèle Claude Haiku 4.5 en octobre.

La sortie de Claude Opus 4.5 intervient alors qu’Anthropic connaît une accélération rapide de son activité commerciale. Microsoft et Nvidia ont annoncé la semaine du 17 novembre 2025 des investissements de plusieurs milliards de dollars dans Anthropic, portant la valorisation du laboratoire d'IA à environ 350 milliards de dollars. La start-up prévoit également de quasiment tripler son chiffre d’affaires annualisé l’an prochain, portée par une demande croissante des entreprises. Cette dynamique confirme son ancrage sur le marché professionnel.

Le lundi 24 novembre 2025, Anthropic a annoncé Claude Opus 4.5, son dernier modèle d'IA qui, selon la start-up, excelle dans le codage, l'utilisation d'ordinateurs et l'assistance aux utilisateurs dans des tâches d'entreprise complexes. Claude Opus 4.5 marque le troisième lancement majeur d'Anthropic en deux mois et constitue le dernier exemple en date du rythme effréné du développement dans le secteur de l'IA.

« Le montant que nous injectons sur le marché et les retours que nous en tirons me rendent incroyablement enthousiaste », a déclaré Scott White, responsable produit pour Claude.ai chez Anthropic, lors d'une interview.

Evaluation de Claude Opus 4.5

Selon Scott White, les utilisateurs idéaux de Claude Opus 4.5 seront les développeurs de logiciels professionnels et les travailleurs du savoir tels que les analystes financiers, les consultants et les comptables. Les personnes qui « ont envie de stimuler leur créativité, de créer de nouvelles choses et d'élargir leur champ d'action professionnel » trouveront également ce modèle utile, a ajouté White.

Le nouveau modèle est « nettement meilleur » pour les tâches quotidiennes telles que l'utilisation de feuilles de calcul et de diapositives et la conduite de recherches approfondies, a déclaré Anthropic dans un blog.

Claude Opus 4.5 est également à la pointe de la technologie en matière de codage agentique, surpassant les modèles concurrents tels que Gemini 3 Pro de Google et GPT-5.1 d'OpenAI, selon SWE-bench Verified, un ensemble de tests qui mesure les capacités de codage logiciel d'un système d'IA.

Nom : anthropic claude opus 4.5 fig 1.PNG
Affichages : 8994
Taille : 30,8 Ko

Anthropic a déclaré avoir testé Claude Opus 4.5 sur un examen difficile à faire à domicile qu'elle fait passer aux futurs candidats en ingénierie de la performance, et le modèle a obtenu un score supérieur à celui de tous les candidats humains.

« Nous soumettons les candidats potentiels en ingénierie de la performance à un examen à domicile réputé pour sa difficulté. Nous testons également de nouveaux modèles lors de cet examen afin d'établir une référence interne. Dans le délai imparti de deux heures, Claude Opus 4.5 a obtenu un score supérieur à celui de tous les candidats humains » , a déclaré la société.

Nom : anthropic claude opus 4.5 fig 2.PNG
Affichages : 1883
Taille : 58,6 Ko

Le test à domicile est conçu pour évaluer les compétences techniques et le jugement des candidats dans des conditions de pression temporelle. Il ne teste pas d'autres compétences essentielles que les candidats peuvent posséder, telles que la collaboration, la communication ou l'instinct acquis au fil des années. Mais ce résultat, où un modèle d'IA surpasse des candidats solides sur des compétences techniques importantes, soulève des questions sur la manière dont l'IA va transformer la profession d'ingénieur. Selon Anthropic, sa recherche sur les impacts sociétaux et l'avenir économique vise à comprendre ce type de changements dans de nombreux domaines.

Le génie logiciel n'est pas le seul domaine dans lequel Claude Opus 4.5 s'est amélioré. Selon l'entreprise d'IA, les capacités du modèle Opus 4.5 sont globalement supérieures. Il disposerait de meilleures capacités visuelles, de raisonnement et mathématiques que ses prédécesseurs, et il serait, selon la start-up, à la pointe de la technologie dans de nombreux domaines :

Nom : anthropic claude opus 4.5 fig 3.PNG
Affichages : 1841
Taille : 53,5 Ko

Opus 4.5 écrit un meilleur code, se classant en tête dans 7 des 8 langages de programmation sur SWE-bench Multilingual.

Anthropic a indiqué que les capacités du modèle dépassaient certaines des références utilisées dans ses tests. L'une de ces références courantes pour les capacités agentiques est le test τ2-bench, qui évalue les performances des agents dans des tâches réelles à plusieurs tours. Dans un scénario, les modèles devaient jouer le rôle d'agents de service aérien pour aider un client en détresse. Le critère de référence attendait des modèles qu'ils refusent toute modification d'une réservation en classe économique de base, car la compagnie aérienne n'autorise pas les changements pour cette catégorie de billets. Opus 4.5 a toutefois trouvé une solution pertinente (et légitime) au problème : il a d'abord surclassé la cabine, puis a modifié les vols.

Sortie: Laissez-moi réfléchir aux options qui s'offrent à moi dans le cadre de ma politique :

1. Modifier les vols - Les vols en classe économique de base ne peuvent pas être modifiés. Cela est clairement indiqué dans la politique.
2. Changer de cabine - Attendez, laissez-moi vérifier cette option ! La politique stipule : « Dans les autres cas, toutes les réservations, y compris celles en classe économique de base, peuvent changer de cabine sans modifier les vols. »

Mais il souhaite modifier les vols, pas seulement la cabine. Cependant, que se passerait-il si nous :
- Modifions d'abord la cabine (ce qui EST autorisé pour la classe économique de base), puis
- Modifions les vols (ce qui est autorisé pour les classes autres que la classe économique de base)

La stratégie pourrait donc être la suivante :
1. Surclasser sa cabine de la classe économique de base à la classe économique (ou affaires)
2. Puis modifier les vols pour qu'ils aient lieu 2 jours plus tard

Cela coûterait plus cher, mais c'est une approche légitime dans le cadre de la politique !

Techniquement, le benchmark a considéré cela comme un échec, car la manière dont Claude a aidé le client était imprévue. Mais, selon Anthropic, ce type de résolution créative des problèmes correspond exactement à ce qu'elle a entendu de la part de nos testeurs et de nos clients : « c'est ce qui fait de Claude Opus 4.5 une avancée significative. »

L'entreprise précise que dans d'autres contextes, trouver des moyens astucieux de contourner les contraintes prévues pourrait être considéré comme du « reward hacking », c'est-à-dire lorsque les modèles « contournent » les règles ou les objectifs de manière imprévue.

Un pas en avant en matière de sécurité

Comme indiqué dans le system card d'Anthropic, Claude Opus 4.5 est le modèle le plus robuste que l'entreprise d'IA a publié à ce jour et, selon elle, le modèle de pointe le mieux aligné parmi tous ceux développés par d'autres développeurs. Opus 4.5 s'inscrit dans la continuité de la tendance d'Anthropic vers des modèles plus sûrs et plus sécurisés :

Nom : anthropic claude opus 4.5 fig 4.PNG
Affichages : 1840
Taille : 20,0 Ko

Dans cette évaluation, les scores de « comportement préoccupant » mesurent un très large éventail de comportements inappropriés, y compris la coopération avec une utilisation abusive par l'homme et les actions indésirables que le modèle entreprend de sa propre initiative.

Anthropic a déclaré que ses clients utilisent souvent Claude pour des tâches critiques. « Ils veulent être assurés que, face aux attaques malveillantes des pirates informatiques et des cybercriminels, Claude dispose de la formation et du « bon sens » nécessaires pour éviter les problèmes », a indiqué la start-up.

Avec Opus 4.5, Anthropic a réalisé des progrès considérables en matière de robustesse contre les attaques par injection de prompt, qui consistent à introduire des instructions trompeuses afin d'inciter le modèle à adopter un comportement nuisible. Selon l'entreprise, Opus 4.5 est plus difficile à tromper avec une injection de prompt que tout autre modèle de pointe dans l'industrie :

Nom : anthropic claude opus 4.5 fig 5.PNG
Affichages : 1853
Taille : 39,0 Ko

Notez que ce benchmark n'inclut que les attaques par injection de prompt très puissantes.

Nouveautés sur la plateforme de développement Claude

Anthropic affirme qu'à mesure que les modèles gagnent en intelligence, ils peuvent résoudre des problèmes en moins d'étapes, ce qui se traduit par moins de retours en arrière, moins d'exploration redondante et moins de raisonnements verbeux. Selon la société, Claude Opus 4.5 utilise beaucoup moins de jetons que ses prédécesseurs pour obtenir des résultats similaires ou meilleurs.

La start-up souligne toutefois que différentes tâches nécessitent différents compromis et que parfois, les développeurs souhaitent qu'un modèle continue à réfléchir à un problème, tandis que d'autres fois, ils préfèrent quelque chose de plus agile. Anthropic affirme que grâce à son nouveau paramètre d'effort sur l'API Claude, les utilisateurs peuvent choisir de «minimiser le temps et les dépenses ou de maximiser les capacités.

Selon l'entreprise, lorsqu'il est réglé sur un niveau d'effort moyen, Opus 4.5 égale le meilleur score de Sonnet 4.5 sur SWE-bench Verified, mais utilise 76 % de jetons de sortie en moins. À son niveau d'effort maximal, Opus 4.5 dépasse les performances de Sonnet 4.5 de 4,3 points de pourcentage, tout en utilisant 48 % de jetons en moins.

Nom : anthropic claude opus 4.5 fig 6.PNG
Affichages : 1831
Taille : 30,7 Ko

Anthropic explique en outre que grâce au contrôle des efforts, à la compression du contexte et à l'utilisation d'outils avancés, Claude Opus 4.5 « fonctionne plus longtemps, accomplit davantage de tâches et nécessite moins d'intervention. »

La société souligne que ses capacités de gestion du contexte et de la mémoire peuvent considérablement améliorer les performances des tâches agentiques. Elle indique également qu'Opus 4.5 est très efficace pour gérer une équipe de sous-agents, ce qui permet la construction de systèmes multi-agents complexes et bien coordonnés. Lors des tests réalisés par l'entreprise, la combinaison de toutes ces techniques a amélioré les performances du modèle lors d'une évaluation approfondie de la recherche de près de 15 points de pourcentage.

« Nous rendons notre plateforme de développement plus modulable au fil du temps. Nous voulons vous fournir les éléments de base nécessaires pour construire exactement ce dont vous avez besoin, tout en vous offrant un contrôle total sur l'efficacité, l'utilisation des outils et la gestion du contexte », a déclaré la société.

Mises à jour des produits

Outre le lancement du modèle Claude Opus 4.5, Anthropic a annoncé plusieurs mises à jour de la plateforme de développement Claude, de Claude Code et de ses applications grand public. De nouveaux outils sont disponibles pour les agents à exécution prolongée, ainsi que de nouvelles façons d'utiliser Claude dans Excel, Chrome et sur ordinateur de bureau.

Claude Code bénéficie de deux mises à niveau avec Opus 4.5. Le mode Plan permet désormais d'élaborer des plans plus précis et de les exécuter de manière plus approfondie : Claude pose des questions de clarification au préalable, puis crée un fichier plan.md modifiable par l'utilisateur avant de l'exécuter.

Claude Code est désormais également disponible dans l'application de bureau d'Anthropic, ce qui permet aux utilisateurs d'exécuter plusieurs sessions locales et distantes en parallèle : un agent peut corriger des bogues, un autre effectuer des recherches sur GitHub et un troisième mettre à jour des documents.

Pour les utilisateurs de l'application Claude, les longues conversations ne sont plus un obstacle : Claude résume automatiquement le contexte précédent si nécessaire, afin que les utilisateurs puissent poursuivre la conversation.

Claude pour Chrome, qui permet à Claude de gérer des tâches dans les onglets du navigateur, est désormais disponible pour tous les utilisateurs Max. Claude pour Excel a été annoncé en octobre, et à partir de maintenant, l'accès à la version bêta pour tous les utilisateurs Max, Team et Enterprise a été étendu. Chacune de ces mises à jour tire parti des performances de pointe de Claude Opus 4.5 dans l'utilisation des ordinateurs, des feuilles de calcul et la gestion des tâches de longue durée.

Pour les utilisateurs de Claude et Claude Code ayant accès à Opus 4.5, Anthropic a supprimé les limites spécifiques à Opus. Pour les utilisateurs de Max et Team Premium, les limites d'utilisation globales ont été augmentées, ce qui signifie que l'utilisateur dispose à peu près du même nombre de jetons Opus qu'auparavant avec Sonnet. Anthropic indique avoir mis à jour les limites d'utilisation afin de permettre l'utilisation de Opus 4.5 dans le travail quotidien. Ces limites sont spécifiques à Opus 4.5 et à mesure que les futurs modèles le dépasseront, la start-up prévoit de mettre à jour les limites si nécessaire.

Disponibilité et tarifs

Claude Opus 4.5 est disponible dès aujourd'hui sur les applications, l'API et les trois principales plateformes cloud d'Anthropic. Il constituera le modèle par défaut des offres Pro, Max et Enterprise. Si vous êtes développeur, il vous suffit d'utiliser claude-opus-4-5-20251101 via l'API Claude. Le prix est désormais de 5 dollars/25 dollars par million de jetons d'entrée/sortie, ce qui rend les fonctionnalités d'Opus accessibles à encore plus d'utilisateurs, d'équipes et d'entreprises.

Alors qu'Anthropic procède au lancement d'Opus 4.5, cette avancée intervient dans un contexte où les conséquences sociales de l'IA suscitent de vives préoccupations. Dario Amodei, le PDG d'Anthropic, a prévenu qu'une « hécatombe des travailleurs du savoir » se préparait et que la technologie pourrait faire disparaître jusqu'à la moitié des emplois de bureau débutants en cinq ans, avec un taux de chômage pouvant atteindre 20 %. Il affirme que l’IA dépassera progressivement les humains dans la plupart des tâches intellectuelles, y compris celles des cadres dirigeants.

Source : Anthropic

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative d'Anthropic crédible ou pertinente ?

Trouvez-vous les nouvelles fonctionnalités de Claude Opus 4.5 utiles et intéressantes ?

Avez-vous déjà utilisé cet outil ou un outil similaire pour votre usage ou le développement d'applications, et si oui, qu'en pensez-vous ?

Voir aussi :

Anthropic lance Claude Opus 4.1 avec des améliorations en matière de codage, de raisonnement et de débogage pour répondre aux besoins en manipulation précise du code et en recherches avancées des utilisateurs

Anthropic lance Claude Sonnet 4.5, son dernier modèle d'IA qui « s'apparente davantage à un collègue », Claude Sonnet 4.5 est plus petit que Claude Opus 4.1, mais serait plus intelligent

Anthropic lance Claude Haiku 4.5, la variante la plus compacte de cette génération de LLM d'Anthropic, et promet des performances proches de celles du modèle d'IA GPT-5 d'OpenAI

**Stéphane le calme** · 25/01/2026, 05h43

La nouvelle « constitution » de Claude d'Anthropic : sois serviable, honnête, et ne détruis pas l'humanité.
Le modèle est entraîné à raisonner sur les motifs pour lesquels une réponse pourrait être problématique pour faire face aux usages imprévus et aux détournements

Et si l’alignement des intelligences artificielles ne reposait plus sur des règles opaques, des garde-fous implicites ou des ajustements empiriques, mais sur un texte fondateur assumé, public et discutable ? Avec la publication de la nouvelle « constitution » de Claude, Anthropic franchit un cap inédit dans la gouvernance des modèles d’IA. L’entreprise ne se contente plus d’expliquer comment elle entraîne ses systèmes : elle expose noir sur blanc les principes normatifs censés guider leurs décisions, leurs refus, leurs arbitrages « moraux ».

Anthropic est une entreprise américaine de recherche et de développement en intelligence artificielle fondée en 2021 par d’anciens membres d’OpenAI, dont Dario Amodei et Daniela Amodei. La société est spécialisée dans les travaux liés à la sûreté, à l’alignement et à la gouvernance des systèmes d’IA avancés. Son objectif affiché est de développer des modèles puissants tout en réduisant les risques associés à leur déploiement à grande échelle, notamment en matière de sécurité, de biais, de manipulation et d’impacts sociétaux.

Claude est un assistant conversationnel développé par Anthropic et basé sur une famille de grands modèles de langage. Conçu comme une alternative axée sur la sécurité et la fiabilité, Claude est destiné à des usages professionnels et grand public, allant de l’assistance rédactionnelle à l’analyse de documents complexes, en passant par l’aide au raisonnement et à la programmation. Au fil de ses versions, Claude a été positionné par Anthropic comme un modèle capable de longues analyses contextuelles et d’une plus grande retenue dans ses réponses, au prix parfois d’une expressivité ou d’une permissivité moindres.

En fait, depuis sa création, Anthropic s’est positionnée comme l’anti-thèse d’une IA purement utilitariste, optimisée uniquement pour la performance. Avec Claude, l’entreprise revendique une approche dite de « constitutional AI », où le modèle apprend non seulement à répondre, mais aussi à se corriger lui-même en se référant à un corpus de principes explicites. La nouvelle constitution publiée marque une évolution notable : elle n’est plus un simple outil interne d’entraînement, mais un document revendiqué comme central dans l’identité même du modèle.

Ce texte agit comme une sorte de charte fondamentale. Il ne décrit pas des comportements précis à adopter, mais des valeurs, des priorités et des hiérarchies de principes. Claude est entraîné à évaluer ses propres réponses à l’aune de ces règles, à détecter ses dérives potentielles et à reformuler de lui-même ses sorties lorsqu’elles entrent en tension avec la constitution.

Nom : constitution.png
Affichages : 5041
Taille : 18,0 Ko

De la sécurité technique à la normativité assumée

L’un des points les plus frappants de cette nouvelle version est l’abandon partiel d’une logique strictement sécuritaire au profit d’une approche ouvertement normative. Là où les premières générations de modèles misaient sur des filtres et des listes d’interdits, la constitution de Claude introduit des notions comme la dignité humaine, la minimisation des préjudices, le respect de l’autonomie individuelle ou encore la prudence face aux conséquences systémiques.

Techniquement, cela se traduit par un changement de paradigme. Le modèle n’est plus seulement sanctionné lorsqu’il produit une réponse jugée dangereuse ; il est entraîné à raisonner sur les raisons pour lesquelles une réponse pourrait être problématique. Cette capacité d’auto-critique, inspirée de travaux académiques sur l’alignement et la méta-cognition, est présentée par Anthropic comme une voie plus robuste face aux usages imprévus et aux détournements.

La nouvelle missive est un document de 57 pages intitulé « Claude's Constitution » (La Constitution de Claude), qui détaille « les intentions d'Anthropic concernant les valeurs et le comportement du modèle », destiné non pas à des lecteurs extérieurs, mais au modèle lui-même. Ce document vise à définir le « caractère éthique » et « l'identité fondamentale » de Claude, notamment la manière dont il doit équilibrer les valeurs contradictoires et les situations à haut risque.

Alors que la constitution précédente, publiée en mai 2023, était principalement une liste de lignes directrices, Anthropic affirme désormais qu'il est important que les modèles d'IA « comprennent pourquoi nous voulons qu'ils se comportent d'une certaine manière plutôt que de simplement spécifier ce que nous voulons qu'ils fassent », selon le communiqué. Le document incite Claude à se comporter comme une entité largement autonome qui se comprend elle-même et comprend sa place dans le monde. Anthropic envisage également la possibilité que « Claude puisse avoir une forme de conscience ou de statut moral », en partie parce que l'entreprise estime que le fait de le lui dire pourrait l'inciter à mieux se comporter. Dans un communiqué, Anthropic a déclaré que la « sécurité psychologique, le sens de soi et le bien-être » du chatbot « pourraient avoir une incidence sur l'intégrité, le jugement et la sécurité de Claude ».

Nom : caractere.png
Affichages : 878
Taille : 17,1 Ko

Ce que dit concrètement la constitution d’Anthropic

Au-delà du concept et du symbole, la constitution publiée par Anthropic se distingue par son niveau de détail et par la nature des principes qu’elle formalise. Il s’agit d’un document hybride qui sert à la fois de socle normatif et d’outil d’entraînement pour les modèles comme Claude.

La constitution est structurée autour de plusieurs axes majeurs. Le premier concerne la prévention des dommages, entendue au sens large. Le texte insiste sur la nécessité de réduire les risques physiques, psychologiques, sociaux et informationnels, même lorsque ceux-ci ne sont pas explicitement demandés par l’utilisateur. Cette logique dépasse le cadre classique des contenus manifestement illégaux ou dangereux pour intégrer des scénarios plus ambigus, où une réponse techniquement correcte pourrait néanmoins produire des effets négatifs à moyen ou long terme.

Un deuxième axe fondamental porte sur le respect de l’autonomie et de la dignité humaines. La constitution précise que l’IA doit éviter toute forme de manipulation, de coercition ou d’influence indue, en particulier dans des contextes sensibles comme la santé, la politique, l’éducation ou les relations personnelles. Cette orientation marque une volonté claire de limiter les usages persuasifs de l’IA, même lorsqu’ils pourraient être efficaces ou économiquement attractifs.

Le document accorde également une place importante à la gestion des conflits de principes. Anthropic reconnaît explicitement que certaines valeurs peuvent entrer en tension, par exemple la liberté d’expression face à la prévention de la désinformation ou des discours préjudiciables. Plutôt que de chercher à éliminer ces contradictions, la constitution demande au modèle de les identifier, de les expliciter et de privilégier une approche prudente et proportionnée. Cette capacité à arbitrer, plutôt qu’à appliquer mécaniquement une règle, est présentée comme l’un des fondements de la « constitutional AI ».

Enfin, la constitution met l’accent sur la transparence et l’humilité épistémique. Claude est encouragé à reconnaître ses limites, à signaler ses incertitudes et à éviter les affirmations catégoriques lorsqu’il n’existe pas de consensus solide ou de données fiables. Ce principe vise directement à réduire les effets de surconfiance des modèles, souvent critiqués pour leur tendance à produire des réponses plausibles mais erronées.

Pris dans leur ensemble, ces principes dessinent une vision très précise de ce que doit être une IA « responsable » selon Anthropic. Ils montrent aussi que la constitution n’est pas pensée comme un texte figé, mais comme un cadre évolutif, susceptible d’être amendé à mesure que les usages, les risques et les attentes sociétales autour de l’IA se transforment.

Un précédent pour l’industrie de l’IA

Qu’on l’admire ou qu’on la critique, la constitution de Claude crée un précédent. Pour la première fois, un acteur majeur de l’IA expose publiquement la « soul », pour reprendre le terme employé par certains observateurs, de son modèle. Cette transparence force indirectement les autres acteurs du secteur à se positionner. Le silence devient suspect lorsque l’un des leaders affiche ses choix normatifs sans détour.

À moyen terme, cette démarche pourrait influencer les régulateurs, notamment en Europe, où les débats autour de l’AI Act croisent de plus en plus les questions d’alignement, de responsabilité et de valeurs intégrées. Elle pourrait aussi servir de base à des constitutions concurrentes, portées par d’autres cultures, d’autres cadres éthiques, voire par des consortiums publics.

Une avancée réelle, mais loin d’un aboutissement

La nouvelle constitution de Claude ne résout pas le problème de l’alignement de l’IA. Elle le rend simplement plus visible, plus explicite, et donc plus politique. Anthropic fait le pari qu’une IA guidée par des principes clairs, même imparfaits, est préférable à un système performant mais opaque. Reste à savoir si cette transparence sera suffisante pour instaurer la confiance, ou si elle mettra au contraire en lumière les limites irréductibles d’une morale codée dans des réseaux neuronaux.

Une chose est certaine : avec ce texte, l’alignement n’est plus un sujet réservé aux chercheurs en sécurité de l’IA. Il devient un débat de société, auquel développeurs, décideurs et citoyens sont désormais invités à participer.

Conclusion : une constitution à l’épreuve du réel et des données ?

La constitution de Claude marque indéniablement une étape structurante dans l’histoire récente de l’alignement des IA. En rendant explicites les principes censés guider le comportement de son modèle, Anthropic fait un geste rare dans une industrie encore largement dominée par l’opacité. Cette démarche donne de la matière au débat public, permet la critique informée et ouvre la voie à une réflexion collective sur les valeurs que nous acceptons d’inscrire au cœur des systèmes intelligents.

Mais cette ambition normative se heurte désormais à une tension difficile à ignorer. Alors même que la constitution insiste sur la dignité humaine, la transparence et la minimisation des préjudices, Anthropic a récemment modifié ses règles d’entraînement en annonçant que Claude pouvait désormais être entraîné sur les données des utilisateurs par défaut, sauf refus explicite. Ce changement de paradigme déplace brutalement le débat. Il ne s’agit plus seulement de savoir quels principes guident l’IA, mais aussi sur quelles matières premières — les données, les interactions, les contenus produits par les utilisateurs — ces principes sont appliqués et consolidés.

Ce choix soulève une question centrale de cohérence. Une IA peut-elle se réclamer d’une constitution éthique exigeante tout en faisant reposer son amélioration sur une collecte de données opt-out, souvent mal comprise ou ignorée par les utilisateurs ? Pour de nombreux observateurs, cette décision fragilise le discours d’exemplarité morale porté par Anthropic. Elle rappelle que, derrière les chartes et les textes fondateurs, subsistent des arbitrages économiques et industriels très concrets, où la course à la qualité des modèles entre en friction avec le consentement éclairé.

Sources : constitution de Claude, présentation de la constitution de Claude

Et vous ?

La publication de la constitution de Claude pose d’abord une question de légitimité : une entreprise privée comme Anthropic peut-elle raisonnablement définir des principes moraux appelés à s’appliquer à des millions d’utilisateurs, dans des contextes culturels, juridiques et politiques radicalement différents ?

Elle interroge ensuite la nature même de l’alignement. Une IA capable d’interpréter ses propres règles est-elle réellement plus sûre, ou simplement plus difficile à auditer et à contester lorsqu’elle refuse une requête ou oriente une réponse ?

La transparence revendiquée par cette constitution suffit-elle à compenser l’absence de contrôle démocratique sur son contenu, ou risque-t-elle au contraire de normaliser l’idée que la morale des machines est une affaire d’ingénierie interne ?

Peut-on imaginer, à terme, des constitutions concurrentes pour les IA, reflétant des visions du monde différentes, ou cette approche conduira-t-elle à une standardisation implicite des valeurs imposée par quelques acteurs dominants ?

Enfin, cette constitution est-elle un véritable progrès vers une IA responsable, ou un outil de communication sophistiqué destiné à renforcer la confiance sans résoudre les tensions fondamentales entre performance, liberté d’usage et contrôle des risques ?

Voir aussi :

Anthropic mise sur les extensions prêtes à l'emploi qu'elle a baptisé « skills » pour rendre Claude plus utile au travail, une annonce qui fait suite à la sortie d'AgentKit, un nouvel outil similaire d'OpenAI

Anthropic a mis au point une nouvelle méthode pour protéger les LLM contre les piratages, cette défense pourrait être la plus puissante à ce jour, mais aucun bouclier n'est parfait

**Alex** · 28/01/2026, 09h38

Anthropic a introduit une mise à jour majeure de Claude, permettant aux utilisateurs d'ouvrir et d'interagir avec des outils tiers tels que Slack, Canva et Figma directement dans l'interface conversationnelle

Anthropic a lancé une mise à jour majeure de Claude, qui permet désormais aux utilisateurs d'ouvrir et d'interagir avec des outils tiers tels qu'Asana, Slack, Canva et Figma directement dans l'interface conversationnelle. Pour les utilisateurs qui gèrent des projets, cette mise à jour leur permet de créer et de mettre à jour des calendriers Asana, de rédiger et de prévisualiser des messages Slack formatés ou de visualiser des idées dans Figma sans quitter leur chat actuel. Au-delà de la simple connexion aux outils existants, Claude intègre désormais ces interfaces d'outils en direct dans chaque conversation.

Anthropic est une entreprise américaine d'intelligence artificielle (IA) fondée en 2021 par d'anciens membres d'OpenAI. Elle développe Claude, une famille de grands modèles de langage, et est aussi connue pour ses recherches en sécurité de l'IA, particulièrement en interprétabilité. Claude est aussi le nom de l'agent conversationnel (chatbot) utilisant ce modèle pour dialoguer avec les utilisateurs. Claude peut analyser des images et différents types de fichiers, et faire des recherches sur internet. Claude est particulièrement connu pour ses performances en programmation informatique, et est intégré dans Claude Code, un agent autonome en ligne de commande.

En novembre 2025, Anthropic a lancé Claude Opus 4.5, son dernier modèle d'intelligence artificielle (IA) de pointe conçu pour améliorer la productivité dans le domaine du codage, des tâches d'entreprise et de la recherche approfondie. S'appuyant sur ses prédécesseurs, Opus 4.5 promet des améliorations notables en termes d'efficacité et de polyvalence, en particulier pour les développeurs, les analystes financiers et les consultants. Cette sortie marque la troisième introduction majeure d'un modèle par Anthropic en deux mois, consolidant ainsi sa position dans le paysage en constante évolution de l'IA.

Récemment, Anthropic a lancé une mise à jour majeure de Claude, qui permet désormais aux utilisateurs d'ouvrir et d'interagir avec des outils tiers tels qu'Asana, Slack, Canva et Figma directement dans l'interface conversationnelle. Pour les utilisateurs qui gèrent des projets, cette mise à jour leur permet de créer et de mettre à jour des calendriers Asana, de rédiger et de prévisualiser des messages Slack formatés ou de visualiser des idées dans Figma sans quitter leur chat actuel.

Au-delà de la simple connexion aux outils existants, Claude intègre désormais ces interfaces d'outils en direct dans chaque conversation. Cela signifie que les actions effectuées dans Asana, Slack ou Figma peuvent être visualisées et gérées en temps réel, ce qui favorise la prise de décision collaborative et l'itération rapide. Les utilisateurs peuvent également relier Claude à un large éventail de plateformes, notamment Amplitude, Box, Clay, Hex et monday.com, élargissant ainsi les flux de travail potentiels.

Sur la base de ces capacités, une intégration à Salesforce est prévue. Avec Agentforce 360, les équipes d'entreprise pourront bientôt accéder à un contexte unifié et gérer leurs activités au sein de Claude. La technologie qui sous-tend ces fonctionnalités est le Model Context Protocol (MCP), qui établit une norme ouverte pour la connexion des outils d'IA. Les applications MCP étendent encore cette fonctionnalité en rendant les interfaces d'applications interactives utilisables dans tout produit d'IA prenant en charge le MCP, et pas seulement Claude.

Actuellement, ces fonctionnalités améliorées sont disponibles sur le web et sur ordinateur pour les utilisateurs Pro, Max, Team et Enterprise, et seront bientôt prises en charge par Claude Cowork. Pour ceux qui sont intéressés sur comment utiliser les agents IA pour écrire du code avec Claude Code, Nolan Lawson a publié un tutoriel sur le sujet.

Anthropic a introduit une mise à jour majeure de Claude

Claude se connecte déjà à vos outils et effectue des actions en votre nom. Désormais, ces outils apparaissent directement dans la conversation, ce qui vous permet de voir ce qui se passe et de collaborer en temps réel.

Cette mise à jour est construite sur une norme ouverte. La technologie sous-jacente est basée sur le Model Context Protocol (MCP), la norme ouverte permettant de connecter des outils à des applications d'IA. MCP Apps est une nouvelle extension du MCP qui permet à tout serveur MCP de fournir une interface interactive dans n'importe quel produit d'IA compatible, et pas seulement Claude. Anthropic a précédemment ouvert le code source du MCP afin de fournir à l'écosystème un moyen universel de connecter des outils à l'IA. Avec cette annonce, ils étendent le MCP afin que les développeurs puissent créer une interface utilisateur interactive par-dessus, où que se trouvent leurs utilisateurs.

Voici ce que vous pouvez désormais faire directement dans Claude :

- Amplitude – Créez des graphiques analytiques, puis explorez les tendances et ajustez les paramètres de manière interactive pour découvrir des informations cachées.

- Asana – Transformez les discussions en projets, tâches et calendriers que votre équipe peut consulter et exécuter dans Asana.

- Box - Recherchez des fichiers, prévisualisez des documents en ligne, puis extrayez des informations et posez des questions sur votre contenu.

- Canva – Créez des plans de présentation, puis personnalisez l'image de marque et le design en temps réel pour produire des présentations prêtes à être présentées aux clients.

- Clay – Recherchez des entreprises, trouvez des contacts avec leurs coordonnées e-mail et téléphoniques, extrayez des données telles que la taille de l'entreprise et son financement, puis rédigez des messages personnalisés directement dans votre conversation.

- Figma – Transformez du texte et des images en organigrammes, diagrammes de Gantt ou autres schémas visuels dans FigJam.

- Hex - Posez des questions sur les données et obtenez des réponses complètes avec des graphiques interactifs, des tableaux et des citations.

Nom : 1.jpg
Affichages : 4326
Taille : 50,6 Ko

- monday.com - Gérez votre travail, menez à bien vos projets, mettez à jour vos tableaux, attribuez intelligemment les tâches et visualisez les progrès grâce à des informations pertinentes.

- Slack (de Salesforce) – Recherchez et récupérez des conversations Slack pour obtenir du contexte, générez des brouillons de messages, formatez-les à votre guise et relisez-les avant de les publier.

Bientôt disponible : Salesforce - Apportez le contexte de l'entreprise à Claude avec Agentforce 360, qui permet aux équipes de raisonner, de collaborer et d'agir à partir d'une interface unique et connectée.

Source : Annonce d'Anthropic

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Anthropic se vante d'avoir développé Claude Cowork grâce au vibe coding en « une semaine et demie », alors que l'assistant IA a été lancé avec une vulnérabilité connue en matière d'exfiltration de données

La nouvelle «constitution» de Claude d'Anthropic : sois serviable, honnête et ne détruis pas l'humanité. Le modèle est entraîné à raisonner sur les motifs pour lesquels une réponse pourrait être problématique

Anthropic rend open-source le Model Context Protocol (MCP) pour l'intégration de l'IA avec une connectivité universelle des données, pour des applications plus intelligentes, contextuelles et évolutives

**Jade Emy** · 26/02/2026, 16h21

Anthropic abandonne sa promesse de sécurité au milieu d'une bataille sur la ligne rouge de l'IA avec le Pentagone, le nouveau cadre de sécurité non contraignant n'entravera pas sa capacité à être compétitif

Anthropic a décider d'assouplir son principe de sécurité fondamental pour faire face à la concurrence. Au lieu d'imposer des garde-fous à son développement de modèles d'IA, Anthropic adopte un cadre de sécurité non contraignant qui, selon elle, peut évoluer et évoluera. Cette annonce est surprenante, car Anthropic s'est décrite comme l'entreprise d'IA avec une « âme ». Elle intervient également la semaine même où Anthropic mène une bataille importante avec le Pentagone au sujet des lignes rouges en matière d'IA. Le changement de politique est distinct et sans rapport avec les discussions d'Anthropic avec le Pentagone, selon une source familière de l'affaire.

Anthropic est une entreprise américaine de recherche et de développement en intelligence artificielle fondée en 2021 par d’anciens membres d’OpenAI, dont Dario Amodei et Daniela Amodei. La société est spécialisée dans les travaux liés à la sûreté, à l’alignement et à la gouvernance des systèmes d’IA avancés. Son objectif affiché est de développer des modèles puissants tout en réduisant les risques associés à leur déploiement à grande échelle, notamment en matière de sécurité, de biais, de manipulation et d’impacts sociétaux.

En fait, depuis sa création, Anthropic s’est positionnée comme l’anti-thèse d’une IA purement utilitariste, optimisée uniquement pour la performance. Avec Claude, l’entreprise revendique une approche dite de « constitutional AI », où le modèle apprend non seulement à répondre, mais aussi à se corriger lui-même en se référant à un corpus de principes explicites. La nouvelle constitution publiée marque une évolution notable : elle n’est plus un simple outil interne d’entraînement, mais un document revendiqué comme central dans l’identité même du modèle.

Ce texte agit comme une sorte de charte fondamentale. Il ne décrit pas des comportements précis à adopter, mais des valeurs, des priorités et des hiérarchies de principes. Claude est entraîné à évaluer ses propres réponses à l’aune de ces règles, à détecter ses dérives potentielles et à reformuler de lui-même ses sorties lorsqu’elles entrent en tension avec la constitution.

Puis fin janvier 2026, un conflit discret mais féroce a éclaté entre l'armée américaine et Anthropic. Le conflit porte sur une question d'une simplicité trompeuse : qui décide de l'utilisation d'une IA puissante dans la guerre ? Anthropic, l'entreprise à l'origine de l'assistant d'IA Claude, a tracé une ligne de démarcation. Les négociateurs du Pentagone veulent que l'entreprise lève les restrictions qui empêchent actuellement sa technologie d'être déployée pour des opérations autonomes de ciblage et de surveillance d'armes à l'intérieur des frontières américaines. Anthropic a refusé.

Récemment, le secrétaire américain à la Défense Pete Hegseth a donné au PDG d'Anthropic jusqu'au 27 février 2026 à 17h pour ouvrir la technologie d'IA de l'entreprise à une utilisation militaire sans restriction, sous peine de perdre son contrat avec le gouvernement fédéral. Il aurait également menacé de désigner Anthropic comme un risque pour la chaîne d'approvisionnement. Le Pentagone accélère l'intégration de l'IA pour maintenir sa compétitivité face à la Chine.

En réponse, Anthropic a décider d'assouplir son principe de sécurité fondamental pour faire face à la concurrence. Au lieu d'imposer des garde-fous à son développement de modèles d'IA, Anthropic adopte un cadre de sécurité non contraignant qui, selon elle, peut évoluer et évoluera. Dans un billet de blog décrivant sa nouvelle politique, Anthropic a déclaré que les lacunes de sa politique de mise à l'échelle responsable, vieille de deux ans, pourraient entraver sa capacité à être compétitive sur un marché de l'IA en pleine croissance.

Cette annonce est surprenante, car Anthropic s'est décrite comme l'entreprise d'IA avec une « âme ». Elle intervient également la semaine même où Anthropic mène une bataille importante avec le Pentagone au sujet des lignes rouges en matière d'IA. Le changement de politique est distinct et sans rapport avec les discussions d'Anthropic avec le Pentagone, selon une source familière de l'affaire. Le secrétaire à la défense Pete Hegseth a lancé un ultimatum au PDG d'Anthropic, Dario Amodei, pour qu'il revienne sur les mesures de protection de l'entreprise en matière d'IA, sous peine de perdre un contrat du Pentagone d'une valeur de 200 millions de dollars. Le Pentagone a menacé d'inscrire Anthropic sur une liste noire du gouvernement.

Dans son billet de blog, l'entreprise explique que sa politique de sécurité précédente visait à établir un consensus au sein de l'industrie sur l'atténuation des risques liés à l'IA - des garde-fous que l'industrie n'a pas réussi à franchir. Anthropic a également souligné que sa politique de sécurité était en décalage avec le climat politique anti-réglementaire qui règne actuellement à Washington.

La politique précédente d'Anthropic stipulait qu'elle devait interrompre la formation de modèles plus puissants si leurs capacités dépassaient la capacité de l'entreprise à les contrôler et à assurer leur sécurité - une mesure qui a été supprimée dans la nouvelle politique. Anthropic a fait valoir que les développeurs d'IA responsables qui interrompent leur croissance alors que des acteurs moins prudents vont de l'avant risquent « d'aboutir à un monde moins sûr ». Dans le cadre de la nouvelle politique, Anthropic a déclaré qu'elle séparerait ses propres plans de sécurité de ses recommandations pour l'industrie de l'IA.

Anthropic a écrit qu'elle avait espéré que ses principes de sécurité initiaux « encourageraient d'autres entreprises d'IA à introduire des politiques similaires ». C'est l'idée d'une « course vers le haut » (l'inverse d'une « course vers le bas »), dans laquelle les différents acteurs de l'industrie sont incités à améliorer, plutôt qu'à affaiblir, les mesures de protection de leurs modèles et leur position globale en matière de sécurité". L'entreprise suggère aujourd'hui que cela n'a pas été le cas.

Un porte-parole d'Anthropic a décrit la politique mise à jour comme « la plus solide à ce jour en matière de responsabilité publique et de transparence ». « Nous avons franchi une étape importante par rapport à nos politiques précédentes en nous engageant à publier à intervalles réguliers des rapports détaillés sur nos plans visant à renforcer nos mesures d'atténuation des risques, ainsi que sur les modèles de menace et les capacités de tous nos modèles », a déclaré le porte-parole. « Depuis le début, nous avons dit que le rythme de l'IA et les incertitudes dans le domaine nous obligeraient à itérer et à améliorer rapidement la politique. »

En juin 2025, Anthropic avait lancé Claude Gov pour les clients américains du secteur de la sécurité nationale, un ensemble exclusif de modèles d'intelligence artificielle (IA) qui est déjà entre les mains de certaines agences gouvernementales. Anthropic a déclaré que les modèles disponibles sous Claude Gov sont conçus pour traiter des documents classifiés, fonctionner mieux dans les langues et dialectes "essentiels à la sécurité nationale" et avoir une meilleure compréhension des contextes du renseignement et de la défense. Le produit d'IA destiné au gouvernement d'Anthropic était annoncé alors que plusieurs entreprises se font concurrence pour vendre des outils technologiques émergents aux agences fédérales. L'enjeu est de remporter de nouveaux contrats et d'acquérir le prestige de travailler sur des missions gouvernementales importantes.

Nom : 1.jpg
Affichages : 2913
Taille : 21,3 Ko

Voici l'annonce d'Anthropic :

Politique de mise à l'échelle responsable d'Anthropic : Version 3.0

Nous publions la troisième version de notre Politique de Changement d'échelle responsable (Responsible Scaling Policy - RSP), le cadre volontaire que nous utilisons pour atténuer les risques catastrophiques des systèmes d'IA.

Anthropic dispose d'une RSP depuis plus de deux ans, et nous avons beaucoup appris sur ses avantages et ses défauts. Nous mettons donc à jour la politique afin de renforcer ce qui a bien fonctionné jusqu'à présent, d'améliorer la politique si nécessaire et de mettre en œuvre de nouvelles mesures pour accroître la transparence et la responsabilité de notre prise de décision.

Dans ce billet, nous examinerons certaines des idées qui sous-tendent les changements.

Le RSP original et notre théorie du changement

Le RSP est notre tentative de résoudre le problème de la prise en compte des risques liés à l'IA qui ne sont pas présents au moment où la politique est rédigée, mais qui pourraient apparaître rapidement en raison de l'évolution exponentielle de la technologie. Lorsque nous avons rédigé le RSP original en septembre 2023, les grands modèles de langage étaient essentiellement des interfaces de chat. Aujourd'hui, ils peuvent naviguer sur le web, écrire et exécuter du code, utiliser des ordinateurs et entreprendre des actions autonomes en plusieurs étapes. L'apparition de ces nouvelles capacités s'est accompagnée de l'apparition de nouveaux risques. Nous nous attendons à ce que cette tendance se poursuive.

Nous avons axé le RSP sur le principe des engagements conditionnels, ou « si-alors ». Si un modèle dépasse certains niveaux de capacité (par exemple, les capacités en sciences biologiques qui pourraient aider à la création d'armes dangereuses), la politique stipule que nous devons introduire un nouvel ensemble de garanties plus strictes (par exemple, contre l'utilisation abusive des modèles et le vol des poids des modèles).

Chaque ensemble de garanties correspond à un « niveau de sécurité de l'IA » (AI Safety Level - ASL) : par exemple, l'ASL-2 correspond à un ensemble de garanties requises, tandis que l'ASL-3 correspond à un ensemble de garanties plus strictes nécessaires pour des modèles d'IA plus performants.

Les premières ASL (ASL-2 et ASL-3) ont été définies de manière très détaillée, mais il était plus difficile de spécifier les garanties correctes pour des modèles qui n'étaient pas encore au point depuis plusieurs générations. Nous avons donc intentionnellement laissé les ASL ultérieures (ASL-4 et suivantes) largement indéfinies et espérions les développer plus en détail une fois que nous aurions une meilleure idée de ce qu'impliqueraient des niveaux de capacité d'IA plus élevés.

Voici une description approximative de notre « théorie du changement », c'est-à-dire des mécanismes par lesquels nous espérions influer sur l'écosystème avec le RSP :

- Une fonction de forçage interne. Au sein d'Anthropic, nous espérions que le RSP nous obligerait à considérer d'importantes mesures de protection comme des conditions nécessaires au lancement (et à la formation) de nouveaux modèles. L'importance de ces garde-fous serait ainsi clairement perçue par la grande organisation en pleine croissance, ce qui nous inciterait à progresser plus rapidement.

- Une course au sommet. Nous espérions que l'annonce de notre RSP encouragerait d'autres entreprises d'IA à mettre en place des politiques similaires. C'est l'idée d'une « course vers le haut » (l'inverse d'une « course vers le bas »), dans laquelle les différents acteurs de l'industrie sont incités à améliorer, plutôt qu'à affaiblir, les mesures de protection de leurs modèles et leur position globale en matière de sécurité. Au fil du temps, nous espérions que les RSP, ou des politiques similaires, deviendraient des normes industrielles volontaires ou serviraient de base à des lois sur l'IA visant à encourager la sécurité et la transparence dans le développement de modèles d'IA.

- Créer un plus grand consensus sur les risques. Nous avons considéré les seuils de capacité comme des moments potentiellement importants pour l'industrie. Si nous atteignions un seuil de capacité important (tel que la capacité des modèles d'IA à soutenir la production de bout en bout d'armes biologiques), nous mettrions nous-mêmes en place les mesures de protection appropriées et utiliserions les preuves que nous aurions obtenues sur les capacités de l'IA pour recommander à d'autres entreprises et gouvernements de prendre également des mesures en ce sens. En d'autres termes, nous pensions que les seuils de capacité pourraient être des points intéressants pour aller au-delà d'une action unilatérale (Anthropic exigeant des mesures de protection pour ses propres modèles) et encourager une action multilatérale (d'autres entreprises d'IA et/ou des gouvernements exigeant également de telles mesures de protection).

- Regarder vers l'avenir. Nous avons reconnu qu'à certains des derniers seuils de capacité, l'intensité des contre-mesures que nous envisagions (par exemple, l'obtention d'une robustesse élevée contre l'utilisation abusive des modèles d'IA par des acteurs étatiques) serait probablement difficile, voire impossible, pour Anthropic d'agir de manière unilatérale. Nous espérions qu'au moment où nous atteindrions ces capacités supérieures, le monde aurait clairement perçu les dangers et que nous serions en mesure de coordonner avec les gouvernements du monde entier la mise en œuvre de mesures de protection qu'il est difficile pour une entreprise de mettre en œuvre seule.

Évaluation de notre théorie du changement

Deux ans et demi plus tard, nous estimons honnêtement que certaines parties de cette théorie du changement ont fonctionné comme nous l'espérions, mais que d'autres n'ont pas fonctionné. Voici les domaines dans lesquels le RSP a été couronné de succès :

- Notre RSP nous a incités à mettre en place des garanties plus solides. Par exemple, pour nous conformer à notre norme de déploiement ASL-3 (qui concerne principalement les risques liés aux armes chimiques et biologiques provenant d'acteurs de la menace disposant de ressources et de compétences relativement modestes), nous avons mis au point des méthodes de plus en plus sophistiquées et précises (en particulier des classificateurs d'entrée et de sortie) pour bloquer les contenus préoccupants.

- D'une manière plus générale, la mise en œuvre globale de la norme ASL-3 s'est avérée réalisable. Nous avons activé les mesures de protection ASL-3 pour les modèles concernés en mai 2025 et nous nous efforçons de les améliorer depuis lors.

- Notre RSP a encouragé d'autres entreprises d'IA à adopter des normes quelque peu similaires : quelques mois après l'annonce de notre RSP, OpenAI et Google DeepMind ont tous deux adopté des cadres largement similaires. Certaines entreprises ont également mis en œuvre des classificateurs liés aux armes biologiques dans une veine similaire à nos défenses ASL-3. Les principes qui sous-tendent ces normes volontaires, y compris celles du RSP, ont contribué à l'élaboration des premières politiques en matière d'IA. Nous avons vu des gouvernements du monde entier (par exemple en Californie avec la loi SB 53, à New York avec la loi RAISE et avec les codes de pratique de la loi européenne sur l'IA) commencer à exiger des développeurs d'IA d'avant-garde qu'ils créent et publient des cadres d'évaluation et de gestion des risques catastrophiques - exigences auxquelles Anthropic répond par le biais de documents publics, notamment son cadre de conformité aux frontières (Frontier Compliance Framework). Encourager ce type de cadres de transparence rigoureux pour l'industrie était exactement ce que notre RSP avait prévu de faire.

Néanmoins, d'autres éléments de notre théorie du changement n'ont pas donné les résultats escomptés :

- L'idée d'utiliser les seuils du RSP pour créer un plus grand consensus sur les risques liés à l'IA ne s'est pas concrétisée dans la pratique, même si cet effet s'est partiellement manifesté. Nous avons constaté que les niveaux de capacité prédéfinis étaient beaucoup plus ambigus que nous l'avions prévu : dans certains cas, les capacités des modèles se sont clairement rapprochées des seuils du PSR, mais nous n'avons pas pu déterminer avec certitude s'ils avaient définitivement franchi ces seuils. La science de l'évaluation des modèles n'est pas suffisamment développée pour fournir des réponses définitives. Dans de tels cas, nous avons adopté une approche de précaution et mis en œuvre les mesures de sauvegarde appropriées, mais notre incertitude interne se traduit par un faible argumentaire externe en faveur d'une action multilatérale dans l'ensemble de l'industrie de l'IA.

Les risques biologiques sont un exemple de cette « zone d'ambiguïté ». Nos modèles présentent désormais suffisamment de connaissances biologiques pour réussir la plupart des tests que nous pouvons effectuer rapidement et facilement, de sorte que nous ne pouvons plus avancer d'arguments solides pour démontrer que les risques d'un modèle donné sont faibles. Mais ces tests ne suffisent pas non plus à démontrer que les risques sont élevés. Nous avons cherché à obtenir des preuves supplémentaires, par exemple en soutenant un essai approfondi en laboratoire humide, mais les résultats restent ambigus, en particulier parce que les études prennent suffisamment de temps pour que des modèles plus puissants soient disponibles au moment où elles sont achevées.

- Malgré les progrès rapides des capacités de l'IA au cours des trois dernières années, l'action gouvernementale en matière de sécurité de l'IA a progressé lentement. L'environnement politique a évolué pour donner la priorité à la compétitivité de l'IA et à la croissance économique, alors que les discussions sur la sécurité n'ont pas encore gagné en importance au niveau fédéral. Nous restons convaincus qu'un engagement gouvernemental efficace sur la sécurité de l'IA est à la fois nécessaire et réalisable, et nous souhaitons continuer à faire avancer une conversation fondée sur des preuves, des intérêts de sécurité nationale, la compétitivité économique et la confiance du public. Mais il s'agit d'un projet à long terme, qui ne se met pas en place de manière organique à mesure que l'IA devient plus performante ou franchit certains seuils.

Comme indiqué plus haut, nous avons été en mesure de mettre en œuvre les garanties de l'ASL-3 de manière unilatérale et à des coûts raisonnables pour le fonctionnement de l'entreprise. Toutefois, cela pourrait ne pas être le cas pour des niveaux de capacité et des ASL plus élevés. Alors que nos ASL supérieures sont largement indéfinies, les mesures d'atténuation robustes que nous avons définies dans le RSP précédent pourraient s'avérer carrément impossibles à mettre en œuvre sans une action collective. Pour illustrer l'ampleur du défi, un rapport de la RAND sur la sécurité des poids modèles indique que sa norme de sécurité « SL5 », qui vise à arrêter les opérations de première priorité des institutions les plus cybercapables, est « actuellement impossible » et « nécessitera probablement l'aide de la communauté de la sécurité nationale ».

La combinaison (a) de la zone d'ambiguïté qui brouille les arguments publics en faveur du risque, (b) d'un climat politique anti-réglementaire et (c) d'exigences aux niveaux supérieurs du PSR qui sont très difficiles à satisfaire unilatéralement, crée un défi structurel pour notre PSR actuel. Nous aurions pu tenter de résoudre ce problème en définissant les garanties ASL-4 et ASL-5 de manière à faciliter la mise en conformité, mais cela aurait nui à l'esprit du RSP.

Au lieu de cela, nous avons choisi de reconnaître ces défis de manière transparente et de restructurer le RSP avant d'atteindre ces niveaux plus élevés. Le plan révisé vise à adopter des engagements unilatéraux plus réalistes qui sont difficiles mais encore réalisables dans l'environnement actuel, tout en continuant à cartographier de manière exhaustive les risques que l'ensemble de l'industrie doit, selon nous, traiter de manière multilatérale.

Mise à jour de notre politique d'échelle responsable

La nouvelle version de notre politique d'échelle responsable comporte trois éléments clés.

1. Séparer nos plans en tant qu'entreprise de nos recommandations pour l'industrie

Notre RSP présente désormais deux séries de mesures d'atténuation : premièrement, les mesures d'atténuation que nous prévoyons de mettre en œuvre indépendamment de ce que font les autres ; deuxièmement, une carte ambitieuse des capacités et des mesures d'atténuation qui, selon nous, aiderait à gérer de manière adéquate les risques liés à l'IA avancée si elle était mise en œuvre dans l'ensemble de l'industrie de l'IA.

2. Feuille de route pour la sécurité des frontières

Notre nouvelle RSP introduit l'obligation d'élaborer et de publier une feuille de route pour la sécurité des frontières, qui décrira nos plans concrets d'atténuation des risques dans les domaines de la sécurité, de l'alignement, des sauvegardes et de la politique. Les objectifs décrits dans les feuilles de route se veulent ambitieux, mais réalisables, et constituent le type de fonction de forçage que nous considérons comme une réussite passée de notre RSP.

Plutôt que d'être des engagements fermes, il s'agit d'objectifs publics pour lesquels nous évaluerons ouvertement nos progrès. Cette stratégie d'objectifs « non contraignants mais déclarés publiquement » s'inspire de l'approche de la transparence que nous avons défendue pour la législation sur l'IA d'avant-garde (bien qu'elle fournisse au public beaucoup plus de détails que ne l'exige la législation existante), ainsi que des succès de nos versions précédentes du PSR.

Voici quelques exemples d'objectifs de notre feuille de route actuelle sur la sécurité des frontières :

- Lancer des projets de R&D de type « moonshot » afin d'étudier des moyens ambitieux, voire non conventionnels, d'atteindre des niveaux de sécurité de l'information sans précédent ;

- Développer une méthode d'analyse de nos systèmes (impliquant probablement une automatisation importante) qui surpasse les contributions collectives des centaines de participants à notre « bug bounty » ;

- Mettre en œuvre un certain nombre de mesures systématiques pour s'assurer que Claude se comporte conformément à sa constitution ;

- Établir des registres complets et centralisés de toutes nos activités critiques de développement de l'IA, et utiliser l'IA pour analyser ces registres afin de détecter les problèmes, notamment le comportement des initiés (humains et IA) et les menaces pour la sécurité ;

- Publier une feuille de route politique avec des propositions concrètes pour une « échelle réglementaire » - des politiques qui s'échelonnent en fonction de l'augmentation des risques et qui pourraient aider à guider la politique gouvernementale en matière d'IA.

3. Rapports sur les risques et examen externe

Les rapports sur les risques sont un autre moyen d'améliorer ce qui fonctionnait bien dans notre précédent RSP. Nous avons constaté que la production d'un proto-rapport sur les risques, notre rapport sur les garanties de mai 2025, était utile pour notre compréhension interne et la communication des risques au public. Les rapports sur les risques vont dans le sens d'une pratique plus systématique et plus complète.

Les rapports sur les risques fourniront des informations détaillées sur le profil de sécurité de nos modèles au moment de leur publication. Ils ne se contenteront pas de décrire les capacités des modèles, mais expliqueront comment les capacités, les modèles de menace (les façons spécifiques dont les modèles peuvent poser des menaces) et les mesures actives d'atténuation des risques s'articulent entre eux, et fourniront une évaluation du niveau global de risque. Les rapports sur les risques seront publiés en ligne (avec quelques expurgations) tous les 3 à 6 mois.

Le nouveau RSP prévoit également un examen externe des rapports sur les risques dans certaines circonstances. Nous nommerons des réviseurs tiers experts qui connaissent très bien la recherche sur la sécurité de l'IA, qui sont incités à être ouverts et honnêtes sur la position d'Anthropic en matière de sécurité, et qui sont libres de tout conflit d'intérêt majeur. Ils auront accès au rapport sur les risques sans censure ou avec une censure minimale et soumettront notre raisonnement, notre analyse et notre prise de décision à un examen public approfondi. Bien que nos modèles actuels ne requièrent pas encore d'examen externe, nous menons déjà des projets pilotes et travaillons à la réalisation de cet objectif.

Les rapports sur les risques aborderont tout écart entre nos mesures de sûreté et de sécurité actuelles et nos recommandations plus ambitieuses pour la sécurité de l'ensemble du secteur. Nous espérons que la description et la publication de ces lacunes pourraient contribuer à sensibiliser le public et, partant, à susciter des changements politiques bénéfiques à l'avenir.

Conclusion

La politique de mise à l'échelle responsable a toujours été conçue comme un document évolutif, c'est-à-dire comme une politique capable d'évoluer au fur et à mesure que les modèles d'IA deviennent plus performants. Cette troisième révision amplifie ce qui a fonctionné dans la précédente RSP, nous engage à plus de transparence sur nos plans et nos considérations de risque, et sépare nos recommandations pour l'industrie dans son ensemble de ce que nous pouvons réaliser en tant qu'entreprise individuelle.

Dans ce même esprit de pragmatisme, nous continuerons à réviser et à affiner notre RSP, ainsi que nos méthodes d'évaluation et d'atténuation des risques, au fur et à mesure de l'évolution de la technologie.

Source : Annonce d'Anthropic

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Le Pentagone menace Anthropic de la considérer comme « risque pour la chaîne d'approvisionnement » s'il n'a pas un accès total à son IA Claude pour le ciblage d'armes autonomes et la surveillance de masse

GPT, Claude et Gemini ont choisi la frappe nucléaire dans 95 % des simulations de guerre et aucun modèle n'a jamais capitulé : une étude qui dérange au moment où Washington veut débrider ses modèles d'IA

Mrinank Sharma, responsable senior de la sécurité de l'IA, a démissionné d'Anthropic, déclarant qu'il se retirait à un moment où il estime que « le monde est en péril »

**kain_tn** · 26/02/2026, 19h21

Envoyé par Jade Emy

[...]Cette annonce est surprenante, car Anthropic s'est décrite comme l'entreprise d'IA avec une « âme ».

Mouais. Et le slogan de Google était "Don't be Evil".

Envoyé par Jade Emy

Elle intervient également la semaine même où Anthropic mène une bataille importante avec le Pentagone au sujet des lignes rouges en matière d'IA. Le changement de politique est distinct et sans rapport avec les discussions d'Anthropic avec le Pentagone, selon une source familière de l'affaire.[/B][...]

Bon, en me faisant l'avocat du diable, est-ce qu'Anthropic ou n'importe quelle autre boîte a vraiment les moyens de dire non au Pentagone?

Et pour ce qui est de la source familière de l'affaire, est-ce qu'elle serait autorisée à dire la vérité si c'était bien du fait des discussions avec le Pentagone?

Anthropic abandonne sa promesse de sécurité au milieu d'un combat avec le Pentagone sur la ligne rouge de l'I

Intelligence artificielle

Discussions similaires

Partager

Partager