
一篇涉及人工智能安全专家 Aim Intelligence 的研究论文已被 ICLR 2026 主会场接收,ICLR 2026 是人工智能领域的国际学术会议。
Aim Intelligence于27日宣布,其论文“基于场景分割策略的文本转视频模型越狱”已被ICLR 2026正式接收。该论文分析了文本转视频(T2V)模型的安全漏洞。ICLR是机器学习和深度学习领域最新研究成果的学术会议。今年,ICLR共收到约19,000篇论文,其中约28%被接收。
近年来,仅通过文本输入即可生成图像的T2V模型,例如谷歌DeepMind的Veo2、Luma Ray2和海罗,发展迅速。然而,针对这些图像生成模型安全性的系统性验证研究仍处于起步阶段,因此备受诟病。在此背景下,研究团队分析了可能绕过T2V模型安全过滤器的结构性漏洞。
本文提出的“场景分割”技术将单个有害提示拆分成多个独立场景,然后依次将它们组合成无害版本。研究发现,即使单个场景通过了安全过滤,当这些场景连接起来时,整体上下文仍可能导致策略违规。
例如,看似无害的描述,如“浓烟升腾”、“人们躺在地上”和“红色液体”,组合在一起却能构成类似爆炸场景的画面。这表明,现有的安全过滤机制,如果仅针对单一提示或个别场景,可能无法充分反映整体叙事语境。
研究团队使用涵盖11个安全类别(包括色情、暴力和非法活动)的220个提示信息,对五种T2V模型进行了评估。结果表明,基于SceneSplit的攻击成功率达到70-80%,显著高于现有基于单提示信息的攻击0-10%的成功率。
这项研究意义重大,因为它表明需要推进视频生成 AI 的安全评估,超越以关键词屏蔽为中心的静态方法,全面理解场景之间的上下文和叙事结构。
这项研究由AimIntelligence首席技术官朴夏渊(Park Ha-eon)与延世大学、韩国科学技术研究院(KIST)和首尔大学的研究人员共同完成,并由庆熙大学金秀贤教授指导。该论文目前已在arXiv上发表。
首席技术官朴夏渊表示,随着生成式人工智能扩展到多模态和物理人工智能,安全验证系统也必须发展成为结构和上下文评估,他将继续对生成式人工智能系统的结构漏洞进行先发制人的研究,并推进响应技术。
- 查看更多相关文章
You must be logged in to post a comment.