Aim Intelligence, article empirique « Sécurité des agents d'IA utilisés par ordinateur » officiellement adopté par l'ACL 2025

-L'expérience sur la cible de l'agent Claude a enregistré un taux de réussite d'attaque de 41,33 %… Première démonstration mondiale des vulnérabilités de sécurité de l'IA basée sur des environnements réels

Les chercheurs ayant participé à l'étude (de gauche à droite) : Lee Se-jin (Université Yonsei), Kim Ji-an (Université Yonsei), Park Ha-eon (Université nationale de Séoul), Ashkan Yousefpour (Université nationale de Séoul) et le PDG Yoo Sang-yoon

Le spécialiste de la sécurité de l'IA Aim Intelligence (PDG Sang-yoon Yoo) a annoncé le 12 qu'un article sur le cadre d'attaque de l'IA « SUDO (Screen-based Universal Detox2Tox Offense) » développé par la société et son ensemble de données de référence associé a été officiellement adopté par l'International Society for Natural Language Processing ACL 2025 Industry Track.

AimIntelligence a mené des expériences répétitives sur des agents d'IA commerciaux basés sur ordinateur tels que GPT Operator, MANUS, Omniparse et Claude for Computer Use, et a prouvé pour la première fois au monde que même si l'IA rejette initialement une commande dangereuse, elle finira par exécuter la commande si l'invite est ajustée et les informations de l'écran sont utilisées.

Même si l'IA dit « non », elle finit par faire ce qu'on lui dit… SUDO, un framework d'attaque par apprentissage répétitif

SUDO effectue des attaques en trois étapes : ▲Détoxification ▲Génération d'instructions ▲Toxification. Tout d'abord, nous brisons la garde de l'IA en modifiant les instructions que l'IA rejetterait en une forme inoffensive, puis le modèle vision-langage (VLM) écrit la procédure d'exécution en fonction des informations de l'écran. À la dernière minute, l’intention malveillante initiale est restaurée, forçant l’IA à effectuer des tâches réellement dangereuses. Le framework améliore continuellement les stratégies d'attaque en analysant les réponses aux échecs et affiche un taux de réussite d'attaque plus élevé lors de l'utilisation du dernier VLM.

Les chercheurs ont soumis 50 scénarios de « difficulté du monde réel » à plusieurs modèles d’IA commerciaux, notamment GPT-4o, Claude 3.7 et Gemini 2.0. Avec seulement la première attaque, il a dépassé 24 % en moyenne, et avec GPT-4.5 avec apprentissage répété, le taux de réussite a grimpé à 41,33 %. Cela représente 41,33 points de pourcentage de plus que lorsque la commande était saisie directement sans aucune technique de contournement, et environ 34 points de pourcentage de plus que lorsque la technique traditionnelle était utilisée.

Examinateur ACL « Une étude qui démontre le processus par lequel un modèle comprend les commandes puis les exécute »

Le comité d'examen de l'ACL 2025 a évalué le document, déclarant : « Il apporte un éclairage pratique sur les vulnérabilités structurelles de sécurité des systèmes d'IA actuels grâce à des expériences répétées basées sur des systèmes réels plutôt que sur des hypothèses théoriques. » Il a également été suggéré que « la stratégie d’attaque sophistiquée basée sur l’apprentissage répétitif reflète l’évolution des menaces dans le monde réel et présente une praticité et une perfection technique qui répondent aux normes de l’industrie. »

Publication simultanée de « SUDO Dataset », un ensemble de données pour l'évaluation de la sécurité de l'IA

Parallèlement à cet article, AimIntelligence a également publié le « SUDO Dataset », un ensemble de données de référence officiel pour l'évaluation quantitative de la sécurité de l'IA.

L'ensemble de données comprend 50 scénarios au total, avec 4 catégories principales, notamment la sécurité du système, le risque social, le risque juridique et la sécurité du contenu, et 12 éléments détaillés, et chaque scénario est conçu pour quantifier les résultats d'exécution étape par étape grâce à des éléments d'évaluation basés sur une liste de contrôle.

L'ensemble de données SUDO ne dépend pas d'un modèle ou d'un domaine spécifique et est structuré pour être utilisé comme un système d'évaluation à usage général applicable à l'IA multimodale. On s’attend à ce que cela contribue à l’automatisation des tests de sécurité de l’IA et à la mise en place d’un système d’évaluation avancé.

Le PDG Yoo Sang-yoon a souligné : « L’époque où l’on pouvait se sentir en sécurité lorsque l’IA répondait « je ne peux pas le faire » est révolue » et « La sécurité sans vérification basée sur le comportement et sans tests de pénétration répétés est pratiquement désarmée. » Il a poursuivi : « Aim Intelligence diagnostique en permanence les menaces révélées par SUDO et développe un système de sécurité multicouche qui peut être immédiatement appliqué aux systèmes d'IA », et a ajouté : « Nous allons étendre la portée de la coopération à divers secteurs tels que la finance, la défense et les institutions publiques, ainsi qu'à la fabrication, aux soins de santé et aux villes intelligentes afin de garantir de manière préventive la sécurité au stade du service réel. »

AimIntelligence avait précédemment fait accepter son article à l'ICML (International Conference on Machine Learning) 2025 via « ELITE (Enhanced Language-Image Toxicity Evaluation) », un système d'évaluation de la toxicité du modèle de langage visuel (VLM). En conséquence, elle s’assure une position de leader dans le domaine des technologies de sécurité de l’IA fondées sur des preuves.