新年壁頭から国内代表人工知能(AI)スタートアップアップステージが巻き込まれた「モデル盗作疑惑」提起2日ぶりにハプニングで一段落した。
競争会社代表の公開的な問題提起で触発された今回の議論は当事者の公式謝罪で収拾局面に入ったが、単純な真実工房を越えて国内AIエコシステムに「どこから独自の技術か」に対する話題を投げた。政府主導の「独自AIファンデーションモデル」事業に対する検証プロセスと技術スタートアップ間の健全な競争倫理が試験台に上がったのだ。業界は今回の事件をきっかけに「韓国型AI」の信頼度を担保できる科学的で透明な検証体系の準備が緊急だと口をそろえている。
事件の発端は去る1月1日、サイオニック・エイ・コソクヒョン代表がSNSを通じてアップステージの大規模言語モデル(LLM)「ソーラーオープン100B」が中国ジープ(Zhipu) AIのモデルと似ているという疑惑を提起して始まった。高代表は、両モデルのレイヤ正規化(LayerNorm)重み間のコサイン類似度が96.8%に達するという技術的分析に基づいて提示した。これはすぐに開発者コミュニティを強打し、「国民税が投入される国策課題にコピーモデルが使われたのではないか」という激しい議論を呼び起こした。
しかし、アップステージ側はすぐに反論に出た。アップステージは「大規模モデル学習過程で特定レイヤーの統計的数値が収束する現象は構造的特性上発生する可能性がある」と説明し、単純パラメータ類似度だけで複製を断定することは技術的エラーであることを指摘した。さらにアップステージは疑惑解消のため外部専門家を招いた公開検証セッションとYouTubeライブ生中継を予告して正面突破を選んだ。結局問題提起の一日が去る2日、高代表は「レイヤー値の類似度だけではウエイト共有を結論しにくいという指摘を受け入れる」と公式謝罪文を掲載し、論議は技術的誤解から始まったもので終わった。
人工知能技術独自性、どこからどこまでだろうか?
今回の事態は技術的に高度化された生成型AI市場で「検証の難易度」がどれだけ高いかを如実に見せてくれる。 LLMは数千億個のパラメータで構成されており、一部区間の数値的類似性だけでは源泉技術の独自性を判断することが難しい。特にオープンソース生態系が活発なAI分野では、アーキテクチャと学習データの構成方式によって異なるモデルでも結果値が同様に収束する「収束進化」現象が現れることがある。専門家らは今回の議論がコサイン類似度という断片的指標が持つ盲点を明らかにするとともに、大衆と市場が納得できる「総合検証プロトコル」の不在を確認させてくれたと分析する。
「レイヤーノムレイヤー値のコサイン類似度だけではモデルウェイト共有の有無を結論しにくいという多くの方々の指摘を受け入れます。 (サイオニックエイアイゴソクヒョン代表)
「指摘された区間は、学習過程で統計的に類似した値が出ることができる構造です。疑惑解消のために必要な範囲内でコードと実験環境を透明に公開して検証します。」 (アップステージ側入場扉)
疑惑は解消されたが、今回の事件が残した波長は小さくない見通しだ。まず、政府の「独派母」事業を含め、公的資金が投入されるAIプロジェクトに対する検証要求がさらに激しくなると見られる。単に結果物の性能を測定することを超えて、学習データの出所、トレーニングパイプライン、アーキテクチャの設計過程などを透明に証明できる「モデルカード(Model Card)」の標準化が求められる。
ベンチャー投資業界関係者は「グローバルビッグテックとの競争が激化する時点で、国内スタートアップ間の消耗的な「暴露戦」よりは相互検証を通じた技術高度化が切実だ」とし「今回の公開検証の試みが一回性イベントにとどまらず、業界の透明性を高める新たな慣行に位置づけなければならない」と述べた。今後、韓国AI産業が「信頼」という資産をどのように確保するかが、グローバル競争力を分ける重要な変数になるものと見られる。
一方では迅速に問題を提起し、その問題に対して生態系が迅速に検証し、当事者が説明し、納得される状況について公式謝罪する迅速な深夜能力を業界が見せたという面で肯定的な見方も存在する。