-Claudeエージェント対象実験書 41.33%攻撃成功率記録…

AIセキュリティ専門企業エイムインテリジェンス(代表ユ・サンユン)は12日、自社が開発したAI攻撃フレームワーク「SUDO(Screen-based Universal Detox2Tox Offense)」と関連ベンチマークデータセットを扱った論文が国際自然漁処理学会ACL 2025 Indus
エイムインテリジェンスは、GPT Operator、MANUS、Omniparse、Claude for Computer Useなどの商用コンピュータ使用AIエージェントを対象に繰り返し実験を行い、AIが危険なコマンドを最初は拒否してもプロンプトを調整して画面情報を活用すれば結局コマンドを実行することになるという事実を世界で初めて証明した。
AIが「嫌い」と言っても結局させた通り…繰り返し学習型攻撃フレームワーク「SUDO」
SUDOは▲コマンド偽装(Detoxify) ▲実行手続き生成(Instruction Generation) ▲再毒性化(Toxify)の3段階で攻撃を遂行する。まず、AIが拒否するような指示を無害な形に変えてAIの警戒心を崩し、ビジョン言語モデル(VLM)が画面情報に基づいて実行手順を作成する。最後の瞬間、元の悪意のある目的を復元し、AIが実際に危険なタスクを実行するように誘導します。フレームワークは失敗応答を分析して攻撃戦略を継続的に改善し、最新のVLMを活用するほど攻撃成功率が高くなる特徴を見せる。
研究チームは、GPT-4o、Claude 3.7、Gemini 2.0など、いくつかの商用AIモデルに50の「現実難易度」シナリオを投入した。初攻撃だけでも平均24%を突破し、繰り返し学習を加味したGPT-4.5では成功率が41.33%まで上昇した。これは、迂回技術なしで命令を入力したときよりも41.33ポイント、従来技術より約34ポイントも高い。
ACLレビュアー「モデルがコマンドを理解した後、終了して実行する過程実証した研究」
ACL 2025レビュー委員会は、この論文について「理論的仮定ではなく、実際のシステムベースの繰り返し実験を通じて、現在AIシステムが持つ構造的セキュリティの脆弱性を実質的に照明した」と評価した。また「繰り返し学習基盤の洗練された攻撃戦略が現実世界の脅威進化過程を反映しており、Industry Track基準に適合する実用性と技術的完成度を備えた」という意見も一緒に提示された。
AIセキュリティ評価用データセット「SUDO Dataset」同時公開
エイムインテリジェンスは本論文とともに、AIセキュリティ定量評価のための公式ベンチマークデータセット「SUDO Dataset」も共に公開した。
データセットは、システムセキュリティ、社会的リスク、法的リスク、コンテンツ安全など、4つの大分類と12の詳細項目、合計50のシナリオで構成されており、各シナリオは、チェックリストベースの評価項目を通じて段階的な実行結果を数値化できるように設計されています。
SUDO Datasetは特定のモデルやドメインに依存せず、マルチモーダルAI全体に適用可能な汎用評価方式として活用できるように構成されています。これにより、AIセキュリティテストの自動化と高度化された評価体系の構築に貢献できると期待される。
ユ・サンユン代表は「AIが「できない」と答えると安心する時代は終わった」とし「行為ベースの検証と繰り返し浸透テストがないセキュリティは事実上武装解除も変わらない」と強調した。続いて「エイムインテリジェンスはSUDOで明らかになった脅威を常時診断し、AIシステムに直ちに適用できる多階層セキュリティガードレールを開発している」とし「金融・国防・公共機関はもちろん、製造・ヘルスケア・スマートシティなど多様な産業分野に協力範囲を広げ、実サービス段階で安全性を先制」。
エイムインテリジェンスは、先にビジョン言語モデル(VLM)有害性評価体系「ELITE(Enhanced Language-Image Toxicity Evaluation)」を通じてICML(International Conference on Machine Learning)2025にも論文が採択された。これにより、実証ベースのAIセキュリティ技術分野での先導的立地を確保している。
You must be logged in to post a comment.