
由Selectstar (CEO 金世烨)人工智能安全团队开发的论文《CAGE:文化适应性红队基准生成框架》已被 ICLR 2026 主会议接受,该会议将于 4 月在巴西举行。
ICLR是人工智能和机器学习领域顶尖的国际会议。今年,在约19,000篇论文中,仅有28%的优秀论文被接收。SelectStar论文入选主会场,代表着其原创性和技术深度获得了国际认可。该研究完全由公司内部员工完成,未涉及任何外部机构。
CAGE技术能够自动生成红队演练数据,以验证人工智能模型的安全性,并充分考虑各国的文化和法律环境。与现有方法主要依赖于翻译来自英语国家的数据不同,CAGE通过“语义模具”生成本地化的攻击问题,测试人工智能模型的防御率,并有效检测潜在风险。即使在数据匮乏的语言地区,例如柬埔寨,CAGE也展现出了卓越的性能。
该论文还发布了名为“KoRSET”的韩国式安全基准测试工具。KoRSET 比现有的简单翻译数据集更能有效地检测出人工智能模型的漏洞,这表明其性能已针对韩国文化进行了优化,更适合进行安全验证。
CAGE技术也被应用于工业领域,用于识别模型漏洞并提高SelectStar合作的大型人工智能项目的运营效率。人工智能安全团队负责人金敏宇表示:“采用ICLR证明了SelectStar作为领先的人工智能技术公司无可匹敌的地位。”
基于此项成果,SelectStar计划将其可靠性评估解决方案扩展到对安全性要求较高的行业,例如金融和公共部门。该论文计划于3月在开源平台arXiv上发布。
- 查看更多相关文章
You must be logged in to post a comment.