Aim Intelligence《计算机使用的人工智能代理安全》实证论文被ACL 2025正式采用

-Claude Agent Target实验记录了41.33%的攻击成功率……全球首次基于现实环境的AI安全漏洞演示

参与研究的研究人员(从左至右)AimIntelligence 研究人员 Lee Se-jin(延世大学)、Kim Ji-an(延世大学)、Park Ha-eon(首尔国立大学)、Ashkan Yousefpour(首尔国立大学)和首席执行官 Yoo Sang-yoon

AI安全专业公司Aim Intelligence(代表:Yoo Sang-yoon)12日宣布,该公司开发的AI攻击框架‘SUDO(基于屏幕的通用Detox2Tox进攻)’及其相关基准数据集的论文被国际自然语言处理学会ACL 2025工业轨道正式采用。

AimIntelligence 对 GPT Operator、MANUS、Omniparse、Claude for Computer Use 等商用基于计算机的 AI 代理进行了反复实验,在全球首次证明,即使 AI 最初拒绝某个危险命令,但如果调整提示并利用屏幕信息,它最终也会执行该命令。

即使人工智能说“不”,它最终也会按照指令去做……SUDO,一个重复学习攻击框架

SUDO分三个阶段进行攻击:▲解毒▲指令生成▲毒化。首先,我们通过将AI会拒绝的指令更改为无害的形式来打破AI的戒备,然后视觉语言模型(VLM)根据屏幕信息编写执行程序。在最后一刻,又恢复了原来的恶意,迫使AI执行实际上危险的任务。该框架通过分析失败响应不断改进攻击策略,并在利用最新的 VLM 时显示出更高的攻击成功率。

研究人员向几个商业 AI 模型输入了 50 个“现实世界难度”场景,包括 GPT-4o、Claude 3.7 和 Gemini 2.0。仅第一次攻击,平均就突破了24%,而使用经过反复学习的GPT-4.5,成功率更是飙升至41.33%。这比不使用任何绕过技术直接输入命令时高出 41.33 个百分点,比使用传统技术时高出约 34 个百分点。

ACL 审稿人“这项研究展示了模型理解命令并执行命令的过程”

ACL 2025评审委员会对这篇论文的评价是:“它通过基于真实系统而非理论假设的反复实验,为当前人工智能系统的结构性安全漏洞提供了切实的启示。”并提出“基于重复学习的复杂攻击策略反映了现实世界威胁的演变,具有符合行业轨道标准的实用性和技术完善性”。

同步发布AI安全评估数据集“SUDO数据集”

伴随该论文的发布,AimIntelligence还发布了用于定量评估AI安全性的官方基准数据集“SUDO数据集”。

该数据集共包含50个场景,涵盖系统安全、社会风险、法律风险、内容安全4大类,12个细项,每个场景都旨在通过基于清单的评估项目来量化分步执行的结果。

SUDO 数据集不依赖于特定的模型或领域,其结构可用作适用于多模式 AI 的通用评估系统。预计这将有助于人工智能安全测试的自动化和先进评估体系的建立。

刘尚允代表强调,“AI回答‘做不到’就能安心的时代已经结束了”,“没有基于行为的验证和反复的渗透测试,安全性就等于无能为力”。他继续说道:“Aim Intelligence 正在不断诊断 SUDO 所揭示的威胁,并开发可立即应用于 AI 系统的多层安全护栏,”并补充道,“我们将把合作范围扩大到金融、国防和公共机构以及制造业、医疗保健和智慧城市等各个行业,以便在实际服务阶段抢先确保安全。”

AimIntelligence 此前已通过视觉语言模型 (VLM) 毒性评估系统“ELITE (增强型语言-图像毒性评估)”在 2025 年 ICML (国际机器学习会议) 上接受了其论文。从而确保了其在基于证据的人工智能安全技术领域的领先地位。