Aim Intelligence 的论文已被 ICLR 2026 主会场接收

一篇涉及人工智能安全专家 Aim Intelligence 的研究论文已被 ICLR 2026 主会场接收，ICLR 2026 是人工智能领域的国际学术会议。

Aim Intelligence于27日宣布，其论文“基于场景分割策略的文本转视频模型越狱”已被ICLR 2026正式接收。该论文分析了文本转视频（T2V）模型的安全漏洞。ICLR是机器学习和深度学习领域最新研究成果的学术会议。今年，ICLR共收到约19,000篇论文，其中约28%被接收。

近年来，仅通过文本输入即可生成图像的T2V模型，例如谷歌DeepMind的Veo2、Luma Ray2和海罗，发展迅速。然而，针对这些图像生成模型安全性的系统性验证研究仍处于起步阶段，因此备受诟病。在此背景下，研究团队分析了可能绕过T2V模型安全过滤器的结构性漏洞。

本文提出的“场景分割”技术将单个有害提示拆分成多个独立场景，然后依次将它们组合成无害版本。研究发现，即使单个场景通过了安全过滤，当这些场景连接起来时，整体上下文仍可能导致策略违规。

例如，看似无害的描述，如“浓烟升腾”、“人们躺在地上”和“红色液体”，组合在一起却能构成类似爆炸场景的画面。这表明，现有的安全过滤机制，如果仅针对单一提示或个别场景，可能无法充分反映整体叙事语境。

研究团队使用涵盖11个安全类别（包括色情、暴力和非法活动）的220个提示信息，对五种T2V模型进行了评估。结果表明，基于SceneSplit的攻击成功率达到70-80%，显著高于现有基于单提示信息的攻击0-10%的成功率。

这项研究意义重大，因为它表明需要推进视频生成 AI 的安全评估，超越以关键词屏蔽为中心的静态方法，全面理解场景之间的上下文和叙事结构。

这项研究由AimIntelligence首席技术官朴夏渊（Park Ha-eon）与延世大学、韩国科学技术研究院（KIST）和首尔大学的研究人员共同完成，并由庆熙大学金秀贤教授指导。该论文目前已在arXiv上发表。

首席技术官朴夏渊表示，随着生成式人工智能扩展到多模态和物理人工智能，安全验证系统也必须发展成为结构和上下文评估，他将继续对生成式人工智能系统的结构漏洞进行先发制人的研究，并推进响应技术。

Aim Intelligence正式参加2025年黑客防御大赛