Les systèmes d'IA font face à des menaces croissantes : le NIST a identifié les différents types de cyberattaques qui manipulent le comportement des systèmes d'IA

Alors que les systèmes d'IA continuent de se développer, le paysage des menaces qui les ciblent se développe lui aussi. Le National Institute of Standards and Technology (NIST) vient de publier un rapport indiquant que des acteurs malveillants utilisent l'apprentissage automatique pour contourner ces systèmes. Sur la base des conclusions présentées dans ce rapport, cette menace va probablement s'accroître dans un avenir proche.

Les attaquants peuvent délibérément confondre ou même "empoisonner" les systèmes d'intelligence artificielle (IA) pour les faire dysfonctionner - et il n'y a pas de défense infaillible que leurs développeurs puissent employer. Des informaticiens du National Institute of Standards and Technology (NIST) et leurs collaborateurs identifient ces vulnérabilités de l'IA et de l'apprentissage automatique, ainsi que d'autres, dans une nouvelle publication.

Leur travail, intitulé Adversarial Machine Learning : A Taxonomy and Terminology of Attacks and Mitigations, s'inscrit dans le cadre des efforts plus larges du NIST pour soutenir le développement d'une IA digne de confiance, et peut aider à mettre en pratique le cadre de gestion des risques de l'IA du NIST. Ce document, fruit d'une collaboration entre le gouvernement, le monde universitaire et l'industrie, vise à aider les développeurs et les utilisateurs de l'IA à se familiariser avec les types d'attaques auxquels ils peuvent s'attendre, ainsi qu'avec les méthodes permettant de les atténuer, tout en sachant qu'il n'existe pas de solution miracle.

"Nous fournissons une vue d'ensemble des techniques et méthodologies d'attaque qui prennent en compte tous les types de systèmes d'IA", a déclaré Apostol Vassilev, informaticien au NIST et l'un des auteurs de la publication. "Nous décrivons également les stratégies d'atténuation actuelles décrites dans la littérature, mais ces défenses disponibles manquent actuellement de garanties solides quant à leur capacité à atténuer pleinement les risques. Nous encourageons la communauté à proposer de meilleures défenses".


Les systèmes d'IA ont pénétré la société moderne, travaillant dans des capacités allant de la conduite de véhicules à l'aide au diagnostic de maladies par les médecins, en passant par l'interaction avec les clients sous la forme de chatbots en ligne. Pour apprendre à effectuer ces tâches, ils sont formés à partir de grandes quantités de données : Un véhicule autonome peut se voir présenter des images d'autoroutes et de rues avec des panneaux de signalisation, par exemple, tandis qu'un chatbot basé sur un grand modèle de langage (LLM) peut être exposé à des enregistrements de conversations en ligne. Ces données aident l'IA à prédire comment réagir dans une situation donnée.

L'un des principaux problèmes réside dans le fait que les données elles-mêmes peuvent ne pas être dignes de confiance. Elles peuvent provenir de sites web et d'interactions avec le public. Il existe de nombreuses possibilités pour les acteurs malveillants de corrompre ces données, à la fois pendant la période de formation d'un système d'IA et par la suite, lorsque l'IA continue d'affiner ses comportements en interagissant avec le monde physique. L'IA peut alors se comporter de manière indésirable. Les chatbots, par exemple, peuvent apprendre à répondre par des propos injurieux ou racistes lorsque leurs garde-fous sont contournés par des prompts malveillants soigneusement élaborés.

"La plupart du temps, les développeurs de logiciels ont besoin qu'un plus grand nombre de personnes utilisent leur produit pour qu'il s'améliore avec l'exposition", a déclaré M. Vassilev. "Mais il n'y a aucune garantie que l'exposition sera bonne. Un chatbot peut cracher des informations mauvaises ou toxiques lorsqu'on le sollicite avec un langage soigneusement conçu."

En partie parce que les ensembles de données utilisés pour former une IA sont beaucoup trop importants pour que les gens puissent les surveiller et les filtrer avec succès, il n'existe pas encore de moyen infaillible de protéger l'IA contre les erreurs d'orientation. Pour aider la communauté des développeurs, le nouveau rapport offre une vue d'ensemble des types d'attaques dont ses produits d'IA pourraient être victimes et des approches correspondantes pour réduire les dommages.

Le rapport examine les quatre principaux types d'attaques : l'évasion, l'empoisonnement, les atteintes à la vie privée et les abus. Il les classe également en fonction de multiples critères tels que les buts et objectifs de l'attaquant, ses capacités et ses connaissances.

Les attaques par évasion, qui se produisent après le déploiement d'un système d'IA, tentent de modifier une entrée pour changer la façon dont le système y répond. Il peut s'agir, par exemple, d'ajouter des marquages aux panneaux d'arrêt pour qu'un véhicule autonome les interprète à tort comme des panneaux de limitation de vitesse ou de créer des marquages de voies confus pour que le véhicule dévie de la route.

Les attaques par empoisonnement se produisent au cours de la phase de formation par l'introduction de données corrompues. Un exemple serait de glisser de nombreux exemples de langage inapproprié dans les enregistrements de conversation, de sorte qu'un chatbot interprète ces exemples comme un langage suffisamment courant pour les utiliser dans ses propres interactions avec les clients.

Les attaques contre la vie privée, qui se produisent pendant le déploiement, sont des tentatives d'apprendre des informations sensibles sur l'IA ou les données sur lesquelles elle a été formée afin de l'utiliser à mauvais escient. Un adversaire peut poser de nombreuses questions légitimes à un chatbot, puis utiliser les réponses pour rétroconcevoir le modèle afin de trouver ses points faibles ou de deviner ses sources. L'ajout d'exemples indésirables à ces sources en ligne pourrait amener l'IA à se comporter de manière inappropriée, et il peut être difficile de faire désapprendre à l'IA ces exemples indésirables spécifiques après coup.

Les attaques par abus impliquent l'insertion d'informations incorrectes dans une source, telle qu'une page web ou un document en ligne, que l'IA absorbe ensuite. Contrairement aux attaques par empoisonnement susmentionnées, les attaques par abus visent à fournir à l'IA des éléments d'information incorrects provenant d'une source légitime mais compromise, afin de détourner l'utilisation prévue du système d'IA.

"La plupart de ces attaques sont assez faciles à mettre en place et nécessitent une connaissance minimale du système d'IA et des capacités adverses limitées", a déclaré Alina Oprea, professeur à la Northeastern University et coauteur de l'étude. "Les attaques par empoisonnement, par exemple, peuvent être montées en contrôlant quelques douzaines d'échantillons d'entraînement, ce qui représente un très faible pourcentage de l'ensemble de l'entraînement."

Les auteurs, dont Alie Fordyce et Hyrum Anderson, chercheurs à Robust Intelligence Inc., décomposent chacune de ces classes d'attaques en sous-catégories et ajoutent des approches pour les atténuer, bien que la publication reconnaisse que les défenses que les experts en IA ont conçues pour les attaques adverses jusqu'à présent sont au mieux incomplètes. Il est important que les développeurs et les organisations qui cherchent à déployer et à utiliser la technologie de l'IA soient conscients de ces limites, a déclaré M. Vassilev.

"Malgré les progrès considérables réalisés par l'IA et l'apprentissage automatique, ces technologies sont vulnérables aux attaques qui peuvent provoquer des échecs spectaculaires aux conséquences désastreuses", a-t-il déclaré. "La sécurisation des algorithmes d'IA pose des problèmes théoriques qui n'ont tout simplement pas encore été résolus. Si quelqu'un dit le contraire, c'est qu'il vend de l'huile de serpent".

Source : "NIST Identifies Types of Cyberattacks That Manipulate Behavior of AI Systems" (NIST)

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette étude du NIST crédible ou pertinente ?

Selon vous, quelle est l'importance des défis posés par ces différents types d'attaques ? Pensez-vous qu'il existe actuellement des stratégies efficaces pour atténuer ces risques ?

Voir aussi :

Des chercheurs découvrent un moyen simple de faire en sorte qu'une IA ignore ses garde-fous et diffuse des contenus interdits, l'exploit affecte aussi bien ChatGPT que ses rivaux Bard et Claude

Attaques d'empoisonnement spécifiques aux invites sur les modèles génératifs texte-image : Nightshade altère les données d'entraînement et permet aux artistes de lutter contre l'IA générative

L'IA peut être facilement induite en erreur par des attaques contradictoires, devrait-on s'en inquiéter ?

Découvrir les attaques par courrier électronique générées par l'IA : exemples réels de 2023, découvrez comment les pirates utilisent l'IA générative pour contourner la sécurité et tromper les employés