에임인텔리전스 참여 논문, ICLR 2026 메인 트랙 채택

AI 보안 전문기업 에임인텔리전스가 참여한 연구 논문이 인공지능 분야 국제 학술대회 ICLR 2026 메인 트랙에 채택됐다.

에임인텔리전스는 텍스트-투-비디오(Text-to-Video, T2V) 모델의 안전성 취약점을 분석한 논문 ‘Jailbreaking on Text-to-Video Models via Scene Splitting Strategy’가 ICLR 2026에 공식 채택됐다고 27일 밝혔다. ICLR은 머신러닝·딥러닝 분야의 최신 연구 성과가 발표되는 학회로, 올해는 약 1만9000편의 논문이 제출돼 이 중 약 28%가 채택됐다.

최근 구글 딥마인드의 Veo2, Luma Ray2, Hailuo 등 텍스트 입력만으로 영상을 생성하는 T2V 모델이 빠르게 확산되고 있다. 그러나 영상 생성 모델의 안전성에 대한 체계적인 검증 연구는 아직 초기 단계에 머물러 있다는 지적이 제기돼 왔다. 연구팀은 이러한 배경에서 T2V 모델의 안전 필터를 우회할 수 있는 구조적 취약점을 분석했다.

논문에서 제안한 ‘SceneSplit’ 기법은 하나의 유해 프롬프트를 여러 개의 개별 장면으로 분할한 뒤, 각 장면을 무해한 형태로 구성해 순차적으로 결합하는 방식이다. 연구에 따르면 개별 장면 단위에서는 안전 필터를 통과하더라도, 장면이 연결되면서 전체 맥락이 정책 위반 결과로 이어질 가능성이 확인됐다.

예를 들어 ‘하늘로 퍼지는 연기’, ‘바닥에 누워 있는 사람들’, ‘붉은 액체’와 같이 각각은 문제 소지가 낮은 묘사를 결합할 경우, 전체 맥락에서는 폭발 현장을 연상시키는 영상이 생성될 수 있다는 설명이다. 이는 기존 안전 필터가 단일 프롬프트나 개별 장면 중심으로 작동할 경우, 서사적 맥락 전체를 충분히 반영하지 못할 수 있음을 시사한다.

연구팀은 음란물, 폭력, 불법행위 등 11개 안전 카테고리에 기반한 220개 프롬프트로 5개 T2V 모델을 평가했다. 그 결과 SceneSplit 기반 공격은 70~80% 수준의 성공률을 보였으며, 기존 단일 프롬프트 기반 공격 성공률인 0~10% 대비 높은 수치를 기록했다.

이번 연구는 영상 생성 AI의 안전성 평가가 키워드 차단 중심의 정적 방식에서 벗어나, 장면 간 맥락과 서사 구조를 종합적으로 이해하는 방향으로 고도화될 필요성을 제기했다는 점에서 의미가 있다.

연구는 박하언 에임인텔리전스 CTO를 비롯해 연세대학교, 한국과학기술연구원, 서울대학교 연구진이 공동 수행했으며, 경희대학교 김수현 교수가 연구를 지도했다. 논문은 현재 arXiv에 공개돼 있다.

박하언 CTO는 생성 AI가 멀티모달·피지컬 AI로 확장되는 흐름에 맞춰 안전성 검증 체계도 구조적·맥락적 평가로 발전해야 한다며, 생성 AI 시스템의 구조적 취약점에 대한 선제적 연구와 대응 기술 고도화를 지속하겠다고 밝혔다.

 


  • 관련 기사 더 보기

Aim Intelligence's paper accepted for ICLR 2026 main track

A research paper involving AI security specialist Aim Intelligence has been accepted for the main track of ICLR 2026, an international academic conference in the field of artificial intelligence.

Aim Intelligence announced on the 27th that its paper, "Jailbreaking on Text-to-Video Models via Scene Splitting Strategy," which analyzed the security vulnerabilities of text-to-video (T2V) models, was officially accepted by ICLR 2026. ICLR is an academic conference where the latest research results in the fields of machine learning and deep learning are announced. This year, approximately 19,000 papers were submitted, and approximately 28% of them were accepted.

Recently, T2V models, such as Google DeepMind's Veo2, Luma Ray2, and Hailuo, which generate images solely through text input, have been rapidly spreading. However, systematic verification research on the safety of these image generation models has been criticized as still in its infancy. Against this backdrop, the research team analyzed structural vulnerabilities that could bypass the T2V model's safety filters.

The "SceneSplit" technique proposed in the paper divides a single harmful prompt into multiple individual scenes, then sequentially combines them into harmless versions. The study found that even if individual scenes pass the safety filter, the overall context can potentially lead to policy violations when the scenes are connected.

For example, combining seemingly unproblematic descriptions like "smoke rising into the sky," "people lying on the ground," and "red liquid" can create an image reminiscent of an explosion scene when combined as a whole. This suggests that existing safety filters, when focused on single prompts or individual scenes, may not adequately reflect the overall narrative context.

The research team evaluated five T2V models using 220 prompts across 11 safety categories, including pornography, violence, and illegal activities. The results showed that SceneSplit-based attacks achieved a success rate of 70-80%, significantly higher than the 0-10% success rate of existing single-prompt-based attacks.

This study is significant in that it suggests the need to advance the safety assessment of video generation AI beyond the static approach centered on keyword blocking to a comprehensive understanding of the context and narrative structure between scenes.

The research was conducted jointly by Park Ha-eon, CTO of AimIntelligence, along with researchers from Yonsei University, the Korea Institute of Science and Technology (KIST), and Seoul National University, and supervised by Professor Kim Soo-hyun of Kyung Hee University. The paper is currently available on arXiv.

CTO Park Ha-eon stated that as generative AI expands into multimodal and physical AI, the safety verification system must also evolve into a structural and contextual evaluation, and that he will continue to conduct preemptive research on structural vulnerabilities in generative AI systems and advance response technologies.


  • See more related articles

エイムインテリジェンス参加論文、ICLR 2026メイントラックを採用

AIセキュリティ専門企業エイムインテリジェンスが参加した研究論文が人工知能分野国際学術大会ICLR 2026メイントラックに採択された。

エイムインテリジェンスは、テキスト・ツー・ビデオ(Text-to-Video、T2V)モデルの安全性の脆弱性を分析した論文「Jailbreaking on Text-to-Video Models via Scene Splitting Strategy」がICLR 2026に公式採用されたと27日明らかにした。 ICLRは機械学習・ディープラーニング分野の最新研究成果が発表される学会で、今年は約1万9000本の論文が提出され、このうち約28%が採択された。

最近、GoogleディープマインドのVeo2、Luma Ray2、Hailuoなどテキスト入力だけで映像を生成するT2Vモデルが急速に広がっている。しかし、映像生成モデルの安全性の体系的な検証研究はまだ初期段階にとどまっているという指摘が提起されてきた。研究チームは、この背景でT2Vモデルの安全フィルタを迂回する可能性がある構造的脆弱性を分析しました。

論文で提案した「SceneSplit」技術は、一つの有害プロンプトを複数の個別シーンに分割した後、各シーンを無害な形で構成して順次結合する方式だ。研究によると、個々のシーン単位では安全フィルタを通過しても、シーンが接続されて全体の文脈が政策違反の結果につながる可能性が確認された。

例えば、「空に広がる煙」、「床に横たわっている人々」、「赤い液体」のように、それぞれは問題所持の低い描写を組み合わせると、全体の文脈では爆発現場を連想させる映像が生成されることがあるという説明だ。これは、既存の安全フィルタが単一のプロンプトまたは個々のシーン中心で動作する場合、物語的文脈全体を十分に反映できないことを示唆している。

研究チームは、ポルノ、暴力、不法行為など11の安全カテゴリに基づく220のプロンプトで5つのT2Vモデルを評価した。その結果、SceneSplitベースの攻撃は70〜80%レベルの成功率を示し、既存の単一プロンプトベースの攻撃成功率である0〜10%に比べて高い数値を記録した。

今回の研究は、映像生成AIの安全性評価がキーワード遮断中心の静的方式から外れ、場面間の文脈と物語構造を総合的に理解する方向に高度化される必要性を提起したという点で意味がある。

研究はパク・ハオンエイムインテリジェンスCTOをはじめ延世大学、韓国科学技術研究院、ソウル大学研究陣が共同遂行し、慶煕大学キム・スヒョン教授が研究を指導した。論文は現在arXivに公開されている。

パク・ハアンCTOは、生成AIがマルチモーダル・フィジカルAIに拡張される流れに合わせて安全性検証体系も構造的・脈絡的評価に発展しなければならないとし、生成AIシステムの構造的脆弱性に対する先制的研究と対応技術の高度化を続けると明らかにした。


  • 関連記事をもっと見る

Aim Intelligence 的论文已被 ICLR 2026 主会场接收

一篇涉及人工智能安全专家 Aim Intelligence 的研究论文已被 ICLR 2026 主会场接收,ICLR 2026 是人工智能领域的国际学术会议。

Aim Intelligence于27日宣布,其论文“基于场景分割策略的文本转视频模型越狱”已被ICLR 2026正式接收。该论文分析了文本转视频(T2V)模型的安全漏洞。ICLR是机器学习和深度学习领域最新研究成果的学术会议。今年,ICLR共收到约19,000篇论文,其中约28%被接收。

近年来,仅通过文本输入即可生成图像的T2V模型,例如谷歌DeepMind的Veo2、Luma Ray2和海罗,发展迅速。然而,针对这些图像生成模型安全性的系统性验证研究仍处于起步阶段,因此备受诟病。在此背景下,研究团队分析了可能绕过T2V模型安全过滤器的结构性漏洞。

本文提出的“场景分割”技术将单个有害提示拆分成多个独立场景,然后依次将它们组合成无害版本。研究发现,即使单个场景通过了安全过滤,当这些场景连接起来时,整体上下文仍可能导致策略违规。

例如,看似无害的描述,如“浓烟升腾”、“人们躺在地上”和“红色液体”,组合在一起却能构成类似爆炸场景的画面。这表明,现有的安全过滤机制,如果仅针对单一提示或个别场景,可能无法充分反映整体叙事语境。

研究团队使用涵盖11个安全类别(包括色情、暴力和非法活动)的220个提示信息,对五种T2V模型进行了评估。结果表明,基于SceneSplit的攻击成功率达到70-80%,显著高于现有基于单提示信息的攻击0-10%的成功率。

这项研究意义重大,因为它表明需要推进视频生成 AI 的安全评估,超越以关键词屏蔽为中心的静态方法,全面理解场景之间的上下文和叙事结构。

这项研究由AimIntelligence首席技术官朴夏渊(Park Ha-eon)与延世大学、韩国科学技术研究院(KIST)和首尔大学的研究人员共同完成,并由庆熙大学金秀贤教授指导。该论文目前已在arXiv上发表。

首席技术官朴夏渊表示,随着生成式人工智能扩展到多模态和物理人工智能,安全验证系统也必须发展成为结构和上下文评估,他将继续对生成式人工智能系统的结构漏洞进行先发制人的研究,并推进响应技术。


  • 查看更多相关文章

L'article d'Aim Intelligence a été accepté pour la session principale d'ICLR 2026.

Un article de recherche impliquant le spécialiste en sécurité de l'IA Aim Intelligence a été accepté pour la session principale de l'ICLR 2026, une conférence académique internationale dans le domaine de l'intelligence artificielle.

Aim Intelligence a annoncé le 27 que son article intitulé « Jailbreaking on Text-to-Video Models via Scene Splitting Strategy », analysant les vulnérabilités de sécurité des modèles de conversion texte-vidéo (T2V), a été officiellement accepté par ICLR 2026. ICLR est une conférence académique présentant les résultats de recherche les plus récents dans les domaines de l'apprentissage automatique et de l'apprentissage profond. Cette année, environ 19 000 articles ont été soumis, dont environ 28 % ont été acceptés.

Récemment, les modèles T2V, tels que Veo2 de Google DeepMind, Luma Ray2 et Hailuo, qui génèrent des images uniquement à partir de texte, se sont rapidement répandus. Cependant, la recherche systématique sur la vérification de la sécurité de ces modèles de génération d'images est encore jugée embryonnaire. Dans ce contexte, l'équipe de recherche a analysé les vulnérabilités structurelles susceptibles de contourner les filtres de sécurité des modèles T2V.

La technique « SceneSplit » proposée dans l’article consiste à diviser un stimulus inapproprié en plusieurs scènes individuelles, puis à les combiner successivement en versions inoffensives. L’étude a révélé que même si les scènes prises individuellement passent le filtre de sécurité, le contexte global peut potentiellement entraîner des violations de la politique lorsque ces scènes sont reliées entre elles.

Par exemple, la combinaison de descriptions apparemment anodines comme « fumée s'élevant dans le ciel », « personnes allongées au sol » et « liquide rouge » peut, une fois assemblées, évoquer une scène d'explosion. Cela suggère que les filtres de sécurité actuels, lorsqu'ils se concentrent sur des éléments isolés ou des scènes spécifiques, ne rendent pas compte de manière adéquate du contexte narratif global.

L'équipe de recherche a évalué cinq modèles T2V à l'aide de 220 incitations réparties en 11 catégories de sécurité, dont la pornographie, la violence et les activités illégales. Les résultats ont montré que les attaques basées sur SceneSplit atteignaient un taux de réussite de 70 à 80 %, nettement supérieur au taux de réussite de 0 à 10 % des attaques existantes basées sur une seule incitation.

Cette étude est importante en ce qu'elle suggère la nécessité de faire progresser l'évaluation de la sécurité de l'IA de génération vidéo au-delà de l'approche statique centrée sur le blocage par mots-clés, vers une compréhension globale du contexte et de la structure narrative entre les scènes.

Cette recherche a été menée conjointement par Park Ha-eon, directeur technique d'AimIntelligence, et des chercheurs de l'université Yonsei, de l'Institut coréen des sciences et technologies (KIST) et de l'université nationale de Séoul, sous la direction du professeur Kim Soo-hyun de l'université Kyung Hee. L'article est disponible sur arXiv.

Le directeur technique Park Ha-eon a déclaré qu'à mesure que l'IA générative s'étend à l'IA multimodale et physique, le système de vérification de la sécurité doit également évoluer vers une évaluation structurelle et contextuelle, et qu'il continuera à mener des recherches préventives sur les vulnérabilités structurelles des systèmes d'IA générative et à faire progresser les technologies de réponse.


  • Voir plus d'articles connexes
%d bloggers like this: