
AIセキュリティ専門企業エイムインテリジェンスが参加した研究論文が人工知能分野国際学術大会ICLR 2026メイントラックに採択された。
エイムインテリジェンスは、テキスト・ツー・ビデオ(Text-to-Video、T2V)モデルの安全性の脆弱性を分析した論文「Jailbreaking on Text-to-Video Models via Scene Splitting Strategy」がICLR 2026に公式採用されたと27日明らかにした。 ICLRは機械学習・ディープラーニング分野の最新研究成果が発表される学会で、今年は約1万9000本の論文が提出され、このうち約28%が採択された。
最近、GoogleディープマインドのVeo2、Luma Ray2、Hailuoなどテキスト入力だけで映像を生成するT2Vモデルが急速に広がっている。しかし、映像生成モデルの安全性の体系的な検証研究はまだ初期段階にとどまっているという指摘が提起されてきた。研究チームは、この背景でT2Vモデルの安全フィルタを迂回する可能性がある構造的脆弱性を分析しました。
論文で提案した「SceneSplit」技術は、一つの有害プロンプトを複数の個別シーンに分割した後、各シーンを無害な形で構成して順次結合する方式だ。研究によると、個々のシーン単位では安全フィルタを通過しても、シーンが接続されて全体の文脈が政策違反の結果につながる可能性が確認された。
例えば、「空に広がる煙」、「床に横たわっている人々」、「赤い液体」のように、それぞれは問題所持の低い描写を組み合わせると、全体の文脈では爆発現場を連想させる映像が生成されることがあるという説明だ。これは、既存の安全フィルタが単一のプロンプトまたは個々のシーン中心で動作する場合、物語的文脈全体を十分に反映できないことを示唆している。
研究チームは、ポルノ、暴力、不法行為など11の安全カテゴリに基づく220のプロンプトで5つのT2Vモデルを評価した。その結果、SceneSplitベースの攻撃は70〜80%レベルの成功率を示し、既存の単一プロンプトベースの攻撃成功率である0〜10%に比べて高い数値を記録した。
今回の研究は、映像生成AIの安全性評価がキーワード遮断中心の静的方式から外れ、場面間の文脈と物語構造を総合的に理解する方向に高度化される必要性を提起したという点で意味がある。
研究はパク・ハオンエイムインテリジェンスCTOをはじめ延世大学、韓国科学技術研究院、ソウル大学研究陣が共同遂行し、慶煕大学キム・スヒョン教授が研究を指導した。論文は現在arXivに公開されている。
パク・ハアンCTOは、生成AIがマルチモーダル・フィジカルAIに拡張される流れに合わせて安全性検証体系も構造的・脈絡的評価に発展しなければならないとし、生成AIシステムの構造的脆弱性に対する先制的研究と対応技術の高度化を続けると明らかにした。
- 関連記事をもっと見る
You must be logged in to post a comment.