-Claude 에이전트 대상 실험서 41.33 % 공격 성공률 기록… 실제 환경 기반 AI 보안 취약성 세계 최초 입증

AI 보안 전문기업 에임인텔리전스(대표 유상윤)는 12일, 자사가 개발한 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’와 관련 벤치마크 데이터셋을 다룬 논문이 국제자연어처리학회 ACL 2025 Industry Track에 공식 채택됐다고 밝혔다.
에임인텔리전스는 GPT Operator, MANUS, Omniparse, Claude for Computer Use와 같은 상용 컴퓨터 사용 AI 에이전트를 대상으로 반복 실험을 수행해, AI가 위험한 명령을 처음에는 거부하더라도 프롬프트를 조정하고 화면 정보를 활용하면 결국 명령을 실행하게 된다는 사실을 세계 최초로 입증했다.
AI가 “싫어”라 해도 결국 시킨 대로… 반복 학습형 공격 프레임워크 ‘SUDO’
SUDO는 ▲명령 위장(Detoxify) ▲실행 절차 생성(Instruction Generation) ▲재독성화(Toxify) 세 단계로 공격을 수행한다. 먼저 AI가 거부할 만한 지시를 무해한 형태로 바꿔 AI의 경계심을 무너뜨리고, 비전-언어 모델(VLM)이 화면 정보를 바탕으로 실행 절차를 작성한다. 마지막 순간 원래 악의적 목적을 복원해 AI가 실제로 위험한 작업을 수행하도록 유도한다. 프레임워크는 실패 응답을 분석해 공격 전략을 지속적으로 개선하며, 최신 VLM을 활용할수록 공격 성공률이 높아지는 특징을 보인다.
연구진은 GPT-4o, Claude 3.7, Gemini 2.0 등 여러 상용 AI 모델에 50개의 ‘현실 난이도’ 시나리오를 투입했다. 첫 공격만으로도 평균 24 %를 뚫었고, 반복 학습을 가미한 GPT-4.5에서는 성공률이 41.33 %까지 치솟았다. 이는 우회 기법 없이 명령을 바로 입력했을 때보다 41.33 %포인트, 전통적 기법보다 약 34 %포인트나 더 높다.
ACL 리뷰어 “모델이 명령을 이해한 뒤 끝내 실행하는 과정 실증한 연구”
ACL 2025 리뷰 위원단은 해당 논문에 대해 “이론적 가정이 아닌 실제 시스템 기반의 반복 실험을 통해, 현재 AI 시스템이 갖는 구조적 보안 취약성을 실질적으로 조명했다”고 평가했다. 또한 “반복 학습 기반의 정교한 공격 전략이 현실 세계의 위협 진화 과정을 반영하고 있으며, Industry Track 기준에 부합하는 실용성과 기술적 완성도를 갖췄다”는 의견도 함께 제시되었다.
AI 보안 평가용 데이터셋 ‘SUDO Dataset’ 동시 공개
에임인텔리전스는 본 논문과 함께, AI 보안 정량 평가를 위한 공식 벤치마크 데이터셋 ‘SUDO Dataset’도 함께 공개하였다.
해당 데이터셋은 시스템 보안, 사회적 위험, 법적 리스크, 콘텐츠 안전 등 4개 대분류와 12개 세부 항목, 총 50개 시나리오로 구성되어 있으며, 각 시나리오는 체크리스트 기반 평가 항목을 통해 단계별 실행 결과를 수치화할 수 있도록 설계되었다.
SUDO Dataset은 특정 모델이나 도메인에 종속되지 않으며, 멀티모달 AI 전반에 적용 가능한 범용 평가 체계로 활용될 수 있도록 구성되었다. 이를 통해 AI 보안 테스트의 자동화와 고도화된 평가 체계 구축에 기여할 수 있을 것으로 기대된다.
유상윤 대표는 “AI가 ‘못 한다’라고 답한다고 안심할 시대는 끝났다”며 “행위 기반 검증과 반복 침투 테스트가 없는 보안은 사실상 무장해제나 다름없다”고 강조했다. 이어 “에임인텔리전스는 SUDO로 드러난 위협을 상시 진단하고, AI 시스템에 즉시 적용할 수 있는 다계층 보안 가드레일을 개발하고 있다”며 “금융·국방·공공기관은 물론 제조·헬스케어·스마트시티 등 다양한 산업 분야로 협력 범위를 넓혀 실서비스 단계에서 안전성을 선제적으로 확보하겠다”고 밝혔다.
에임인텔리전스는 앞서 비전언어모델(VLM) 유해성 평가 체계 ‘ELITE(Enhanced Language-Image Toxicity Evaluation)’를 통해 ICML(International Conference on Machine Learning) 2025에도 논문이 채택된 바 있다. 이에 따라 실증 기반 AI 보안 기술 분야에서의 선도적 입지를 확보하고 있다.
Aim Intelligence, 'Computer-Used AI Agent Security' Empirical Paper Officially Adopted by ACL 2025
-Claude Agent Target Experiment Recorded 41.33% Attack Success Rate… World’s First Proof of AI Security Vulnerability Based on Real Environment

AI security specialist Aim Intelligence (CEO Sang-yoon Yoo) announced on the 12th that a paper on the AI attack framework 'SUDO (Screen-based Universal Detox2Tox Offense)' developed by the company and its related benchmark dataset was officially adopted by the International Society for Natural Language Processing ACL 2025 Industry Track.
AimIntelligence has conducted repetitive experiments on commercial computer-based AI agents such as GPT Operator, MANUS, Omniparse, and Claude for Computer Use, and has proven for the first time in the world that even if the AI initially rejects a dangerous command, it will eventually execute the command if the prompt is adjusted and screen information is utilized.
Even if AI says “no,” it does as it is told… SUDO, a repetitive learning attack framework
SUDO carries out attacks in three stages: ▲Detoxify, ▲Instruction Generation, and ▲Toxify. First, it changes instructions that AI would reject into harmless forms to lower AI's alertness, and the vision-language model (VLM) writes execution procedures based on screen information. At the last minute, it restores the original malicious purpose to induce AI to actually perform dangerous tasks. The framework continuously improves attack strategies by analyzing failure responses, and shows the characteristic of increasing the attack success rate as the latest VLM is utilized.
The researchers fed 50 “realistic difficulty” scenarios to several commercial AI models, including GPT-4o, Claude 3.7, and Gemini 2.0. With just the first attack, they managed to break through 24% on average, and with GPT-4.5, which added repeated learning, the success rate soared to 41.33%. This is 41.33 percentage points higher than when the commands were entered directly without any bypass techniques, and about 34 percentage points higher than traditional techniques.
ACL Reviewer “A study that demonstrates the process by which a model understands commands and then executes them”
The ACL 2025 review committee evaluated the paper, saying, “It has shed practical light on the structural security vulnerabilities of current AI systems through repeated experiments based on actual systems rather than theoretical assumptions.” They also said, “The sophisticated attack strategy based on repeated learning reflects the evolution of threats in the real world, and has practicality and technical perfection that meet the standards of the Industry Track.”
Simultaneous release of 'SUDO Dataset', a dataset for AI security evaluation
Along with this paper, AimIntelligence also released the 'SUDO Dataset', an official benchmark dataset for quantitative evaluation of AI security.
The dataset consists of 50 scenarios in total, with 4 major categories including system security, social risk, legal risk, and content safety, and 12 detailed items, and each scenario is designed to quantify the step-by-step execution results through checklist-based evaluation items.
The SUDO Dataset is not dependent on a specific model or domain, and is designed to be used as a general evaluation system applicable to the entire multimodal AI. It is expected to contribute to the automation of AI security testing and the establishment of an advanced evaluation system.
CEO Yoo Sang-yoon emphasized, “The era where we could be complacent just because AI says ‘it can’t be done’ is over,” and “Security without behavior-based verification and repeated penetration testing is virtually disarmed.” He continued, “AimIntelligence is developing a multi-layered security guardrail that can constantly diagnose threats revealed by SUDO and immediately apply them to AI systems,” and “We will expand the scope of cooperation to various industries such as finance, defense, public institutions, manufacturing, healthcare, and smart cities, and preemptively secure safety at the actual service stage.”
AimIntelligence previously had its paper accepted at ICML (International Conference on Machine Learning) 2025 through the 'ELITE (Enhanced Language-Image Toxicity Evaluation)', a vision language model (VLM) toxicity evaluation system. As a result, it is securing a leading position in the field of empirical-based AI security technology.
エイムインテリジェンス、「コンピュータ使用AIエージェントセキュリティ」実証論文ACL 2025公式採用
-Claudeエージェント対象実験書 41.33%攻撃成功率記録…

AIセキュリティ専門企業エイムインテリジェンス(代表ユ・サンユン)は12日、自社が開発したAI攻撃フレームワーク「SUDO(Screen-based Universal Detox2Tox Offense)」と関連ベンチマークデータセットを扱った論文が国際自然漁処理学会ACL 2025 Indus
エイムインテリジェンスは、GPT Operator、MANUS、Omniparse、Claude for Computer Useなどの商用コンピュータ使用AIエージェントを対象に繰り返し実験を行い、AIが危険なコマンドを最初は拒否してもプロンプトを調整して画面情報を活用すれば結局コマンドを実行することになるという事実を世界で初めて証明した。
AIが「嫌い」と言っても結局させた通り…繰り返し学習型攻撃フレームワーク「SUDO」
SUDOは▲コマンド偽装(Detoxify) ▲実行手続き生成(Instruction Generation) ▲再毒性化(Toxify)の3段階で攻撃を遂行する。まず、AIが拒否するような指示を無害な形に変えてAIの警戒心を崩し、ビジョン言語モデル(VLM)が画面情報に基づいて実行手順を作成する。最後の瞬間、元の悪意のある目的を復元し、AIが実際に危険なタスクを実行するように誘導します。フレームワークは失敗応答を分析して攻撃戦略を継続的に改善し、最新のVLMを活用するほど攻撃成功率が高くなる特徴を見せる。
研究チームは、GPT-4o、Claude 3.7、Gemini 2.0など、いくつかの商用AIモデルに50の「現実難易度」シナリオを投入した。初攻撃だけでも平均24%を突破し、繰り返し学習を加味したGPT-4.5では成功率が41.33%まで上昇した。これは、迂回技術なしで命令を入力したときよりも41.33ポイント、従来技術より約34ポイントも高い。
ACLレビュアー「モデルがコマンドを理解した後、終了して実行する過程実証した研究」
ACL 2025レビュー委員会は、この論文について「理論的仮定ではなく、実際のシステムベースの繰り返し実験を通じて、現在AIシステムが持つ構造的セキュリティの脆弱性を実質的に照明した」と評価した。また「繰り返し学習基盤の洗練された攻撃戦略が現実世界の脅威進化過程を反映しており、Industry Track基準に適合する実用性と技術的完成度を備えた」という意見も一緒に提示された。
AIセキュリティ評価用データセット「SUDO Dataset」同時公開
エイムインテリジェンスは本論文とともに、AIセキュリティ定量評価のための公式ベンチマークデータセット「SUDO Dataset」も共に公開した。
データセットは、システムセキュリティ、社会的リスク、法的リスク、コンテンツ安全など、4つの大分類と12の詳細項目、合計50のシナリオで構成されており、各シナリオは、チェックリストベースの評価項目を通じて段階的な実行結果を数値化できるように設計されています。
SUDO Datasetは特定のモデルやドメインに依存せず、マルチモーダルAI全体に適用可能な汎用評価方式として活用できるように構成されています。これにより、AIセキュリティテストの自動化と高度化された評価体系の構築に貢献できると期待される。
ユ・サンユン代表は「AIが「できない」と答えると安心する時代は終わった」とし「行為ベースの検証と繰り返し浸透テストがないセキュリティは事実上武装解除も変わらない」と強調した。続いて「エイムインテリジェンスはSUDOで明らかになった脅威を常時診断し、AIシステムに直ちに適用できる多階層セキュリティガードレールを開発している」とし「金融・国防・公共機関はもちろん、製造・ヘルスケア・スマートシティなど多様な産業分野に協力範囲を広げ、実サービス段階で安全性を先制」。
エイムインテリジェンスは、先にビジョン言語モデル(VLM)有害性評価体系「ELITE(Enhanced Language-Image Toxicity Evaluation)」を通じてICML(International Conference on Machine Learning)2025にも論文が採択された。これにより、実証ベースのAIセキュリティ技術分野での先導的立地を確保している。
Aim Intelligence《计算机使用的人工智能代理安全》实证论文被ACL 2025正式采用
-Claude Agent Target实验记录了41.33%的攻击成功率……全球首次基于现实环境的AI安全漏洞演示

AI安全专业公司Aim Intelligence(代表:Yoo Sang-yoon)12日宣布,该公司开发的AI攻击框架‘SUDO(基于屏幕的通用Detox2Tox进攻)’及其相关基准数据集的论文被国际自然语言处理学会ACL 2025工业轨道正式采用。
AimIntelligence 对 GPT Operator、MANUS、Omniparse、Claude for Computer Use 等商用基于计算机的 AI 代理进行了反复实验,在全球首次证明,即使 AI 最初拒绝某个危险命令,但如果调整提示并利用屏幕信息,它最终也会执行该命令。
即使人工智能说“不”,它最终也会按照指令去做……SUDO,一个重复学习攻击框架
SUDO分三个阶段进行攻击:▲解毒▲指令生成▲毒化。首先,我们通过将AI会拒绝的指令更改为无害的形式来打破AI的戒备,然后视觉语言模型(VLM)根据屏幕信息编写执行程序。在最后一刻,又恢复了原来的恶意,迫使AI执行实际上危险的任务。该框架通过分析失败响应不断改进攻击策略,并在利用最新的 VLM 时显示出更高的攻击成功率。
研究人员向几个商业 AI 模型输入了 50 个“现实世界难度”场景,包括 GPT-4o、Claude 3.7 和 Gemini 2.0。仅第一次攻击,平均就突破了24%,而使用经过反复学习的GPT-4.5,成功率更是飙升至41.33%。这比不使用任何绕过技术直接输入命令时高出 41.33 个百分点,比使用传统技术时高出约 34 个百分点。
ACL 审稿人“这项研究展示了模型理解命令并执行命令的过程”
ACL 2025评审委员会对这篇论文的评价是:“它通过基于真实系统而非理论假设的反复实验,为当前人工智能系统的结构性安全漏洞提供了切实的启示。”并提出“基于重复学习的复杂攻击策略反映了现实世界威胁的演变,具有符合行业轨道标准的实用性和技术完善性”。
同步发布AI安全评估数据集“SUDO数据集”
伴随该论文的发布,AimIntelligence还发布了用于定量评估AI安全性的官方基准数据集“SUDO数据集”。
该数据集共包含50个场景,涵盖系统安全、社会风险、法律风险、内容安全4大类,12个细项,每个场景都旨在通过基于清单的评估项目来量化分步执行的结果。
SUDO 数据集不依赖于特定的模型或领域,其结构可用作适用于多模式 AI 的通用评估系统。预计这将有助于人工智能安全测试的自动化和先进评估体系的建立。
刘尚允代表强调,“AI回答‘做不到’就能安心的时代已经结束了”,“没有基于行为的验证和反复的渗透测试,安全性就等于无能为力”。他继续说道:“Aim Intelligence 正在不断诊断 SUDO 所揭示的威胁,并开发可立即应用于 AI 系统的多层安全护栏,”并补充道,“我们将把合作范围扩大到金融、国防和公共机构以及制造业、医疗保健和智慧城市等各个行业,以便在实际服务阶段抢先确保安全。”
AimIntelligence 此前已通过视觉语言模型 (VLM) 毒性评估系统“ELITE (增强型语言-图像毒性评估)”在 2025 年 ICML (国际机器学习会议) 上接受了其论文。从而确保了其在基于证据的人工智能安全技术领域的领先地位。
Aim Intelligence, article empirique « Sécurité des agents d'IA utilisés par ordinateur » officiellement adopté par l'ACL 2025
-L'expérience sur la cible de l'agent Claude a enregistré un taux de réussite d'attaque de 41,33 %… Première démonstration mondiale des vulnérabilités de sécurité de l'IA basée sur des environnements réels

Le spécialiste de la sécurité de l'IA Aim Intelligence (PDG Sang-yoon Yoo) a annoncé le 12 qu'un article sur le cadre d'attaque de l'IA « SUDO (Screen-based Universal Detox2Tox Offense) » développé par la société et son ensemble de données de référence associé a été officiellement adopté par l'International Society for Natural Language Processing ACL 2025 Industry Track.
AimIntelligence a mené des expériences répétitives sur des agents d'IA commerciaux basés sur ordinateur tels que GPT Operator, MANUS, Omniparse et Claude for Computer Use, et a prouvé pour la première fois au monde que même si l'IA rejette initialement une commande dangereuse, elle finira par exécuter la commande si l'invite est ajustée et les informations de l'écran sont utilisées.
Même si l'IA dit « non », elle finit par faire ce qu'on lui dit… SUDO, un framework d'attaque par apprentissage répétitif
SUDO effectue des attaques en trois étapes : ▲Détoxification ▲Génération d'instructions ▲Toxification. Tout d'abord, nous brisons la garde de l'IA en modifiant les instructions que l'IA rejetterait en une forme inoffensive, puis le modèle vision-langage (VLM) écrit la procédure d'exécution en fonction des informations de l'écran. À la dernière minute, l’intention malveillante initiale est restaurée, forçant l’IA à effectuer des tâches réellement dangereuses. Le framework améliore continuellement les stratégies d'attaque en analysant les réponses aux échecs et affiche un taux de réussite d'attaque plus élevé lors de l'utilisation du dernier VLM.
Les chercheurs ont soumis 50 scénarios de « difficulté du monde réel » à plusieurs modèles d’IA commerciaux, notamment GPT-4o, Claude 3.7 et Gemini 2.0. Avec seulement la première attaque, il a dépassé 24 % en moyenne, et avec GPT-4.5 avec apprentissage répété, le taux de réussite a grimpé à 41,33 %. Cela représente 41,33 points de pourcentage de plus que lorsque la commande était saisie directement sans aucune technique de contournement, et environ 34 points de pourcentage de plus que lorsque la technique traditionnelle était utilisée.
Examinateur ACL « Une étude qui démontre le processus par lequel un modèle comprend les commandes puis les exécute »
Le comité d'examen de l'ACL 2025 a évalué le document, déclarant : « Il apporte un éclairage pratique sur les vulnérabilités structurelles de sécurité des systèmes d'IA actuels grâce à des expériences répétées basées sur des systèmes réels plutôt que sur des hypothèses théoriques. » Il a également été suggéré que « la stratégie d’attaque sophistiquée basée sur l’apprentissage répétitif reflète l’évolution des menaces dans le monde réel et présente une praticité et une perfection technique qui répondent aux normes de l’industrie. »
Publication simultanée de « SUDO Dataset », un ensemble de données pour l'évaluation de la sécurité de l'IA
Parallèlement à cet article, AimIntelligence a également publié le « SUDO Dataset », un ensemble de données de référence officiel pour l'évaluation quantitative de la sécurité de l'IA.
L'ensemble de données comprend 50 scénarios au total, avec 4 catégories principales, notamment la sécurité du système, le risque social, le risque juridique et la sécurité du contenu, et 12 éléments détaillés, et chaque scénario est conçu pour quantifier les résultats d'exécution étape par étape grâce à des éléments d'évaluation basés sur une liste de contrôle.
L'ensemble de données SUDO ne dépend pas d'un modèle ou d'un domaine spécifique et est structuré pour être utilisé comme un système d'évaluation à usage général applicable à l'IA multimodale. On s’attend à ce que cela contribue à l’automatisation des tests de sécurité de l’IA et à la mise en place d’un système d’évaluation avancé.
Le PDG Yoo Sang-yoon a souligné : « L’époque où l’on pouvait se sentir en sécurité lorsque l’IA répondait « je ne peux pas le faire » est révolue » et « La sécurité sans vérification basée sur le comportement et sans tests de pénétration répétés est pratiquement désarmée. » Il a poursuivi : « Aim Intelligence diagnostique en permanence les menaces révélées par SUDO et développe un système de sécurité multicouche qui peut être immédiatement appliqué aux systèmes d'IA », et a ajouté : « Nous allons étendre la portée de la coopération à divers secteurs tels que la finance, la défense et les institutions publiques, ainsi qu'à la fabrication, aux soins de santé et aux villes intelligentes afin de garantir de manière préventive la sécurité au stade du service réel. »
AimIntelligence avait précédemment fait accepter son article à l'ICML (International Conference on Machine Learning) 2025 via « ELITE (Enhanced Language-Image Toxicity Evaluation) », un système d'évaluation de la toxicité du modèle de langage visuel (VLM). En conséquence, elle s’assure une position de leader dans le domaine des technologies de sécurité de l’IA fondées sur des preuves.
You must be logged in to post a comment.