업스테이지 ‘AI 표절 논란’ 종결…신속한 K-AI 생태계 검증 ‘눈길’

새해 벽두부터 국내 대표 인공지능(AI) 스타트업 업스테이지가 휘말렸던 ‘모델 표절 의혹’ 제기 이틀 만에 해프닝으로 일단락됐다.

경쟁사 대표의 공개적인 문제 제기로 촉발된 이번 논란은 당사자의 공식 사과로 수습 국면에 들어갔지만, 단순한 진실 공방을 넘어 국내 AI 생태계에 ‘어디부터 독자적인 기술이냐’에 대한 화두를 던졌다. 정부 주도의 ‘독자 AI 파운데이션 모델’ 사업에 대한 검증 프로세스와 기술 스타트업 간의 건전한 경쟁 윤리가 시험대에 오른 것이다. 업계는 이번 사건을 계기로 ‘한국형 AI’의 신뢰도를 담보할 수 있는 과학적이고 투명한 검증 체계 마련이 시급하다고 입을 모으고 있다.

사건의 발단은 지난 1월 1일, 사이오닉에이아이 고석현 대표가 SNS를 통해 업스테이지의 대규모 언어모델(LLM) ‘솔라 오픈 100B’가 중국 지푸(Zhipu) AI의 모델과 흡사하다는 의혹을 제기하면서 시작됐다. 고 대표는 두 모델의 레이어 정규화(LayerNorm) 가중치 간 코사인 유사도가 96.8%에 달한다는 기술적 분석을 근거로 제시했다. 이는 곧바로 개발자 커뮤니티를 강타하며 “국민 세금이 투입되는 국책 과제에 카피 모델이 사용된 것 아니냐”는 격렬한 논쟁을 불러일으켰다.

그러나 업스테이지 측은 즉각 반박에 나섰다. 업스테이지는 “대규모 모델 학습 과정에서 특정 레이어의 통계적 수치가 수렴하는 현상은 구조적 특성상 발생할 수 있다”고 설명하며, 단순 파라미터 유사도만으로 복제를 단정하는 것은 기술적 오류임을 지적했다. 나아가 업스테이지는 의혹 해소를 위해 외부 전문가를 초청한 공개 검증 세션과 유튜브 라이브 생중계를 예고하며 정면 돌파를 택했다. 결국 문제 제기 하루가 지난 2일, 고 대표는 “레이어 값의 유사도만으로는 웨이트 공유를 결론 내리기 어렵다는 지적을 수용한다”며 공식 사과문을 게재했고, 논란은 기술적 오해에서 비롯된 것으로 마무리되었다.

인공지능 기술 독자성, 어디서부터 어디까지일까?
이번 사태는 기술적으로 고도화된 생성형 AI 시장에서 ‘검증의 난이도’가 얼마나 높은지를 여실히 보여준다. LLM은 수천억 개의 파라미터로 구성되어 있어, 일부 구간의 수치적 유사성만으로는 원천 기술의 독자성을 판단하기 어렵다. 특히 오픈소스 생태계가 활발한 AI 분야에서는 아키텍처와 학습 데이터의 구성 방식에 따라 서로 다른 모델이라도 결과값이 비슷하게 수렴하는 ‘수렴 진화’ 현상이 나타날 수 있다. 전문가들은 이번 논란이 코사인 유사도라는 단편적 지표가 가진 맹점을 드러냄과 동시에, 대중과 시장이 납득할 수 있는 ‘종합 검증 프로토콜’의 부재를 확인시켜 주었다고 분석한다.

“레이어놈 레이어 값의 코사인 유사도만으로는 모델 웨이트 공유 여부를 결론 내리기 어렵다는 많은 분들의 지적을 수용합니다. 엄밀한 검증 없이 의혹을 제기해 혼란을 야기한 점, 업스테이지 관계자분들께 사과드립니다.” (사이오닉에이아이 고석현 대표)

“지적된 구간은 학습 과정에서 통계적으로 유사한 값이 나올 수 있는 구조입니다. 의혹 해소를 위해 필요한 범위 내에서 코드와 실험 환경을 투명하게 공개하고 검증받겠습니다.” (업스테이지 측 입장문)

비록 의혹은 해소되었으나, 이번 사건이 남긴 파장은 작지 않을 전망이다. 우선 정부의 ‘독파모’ 사업을 포함해 공적 자금이 투입되는 AI 프로젝트에 대한 검증 요구가 한층 거세질 것으로 보인다. 단순히 결과물의 성능을 측정하는 것을 넘어, 학습 데이터의 출처, 트레이닝 파이프라인, 아키텍처의 설계 과정 등을 투명하게 증명할 수 있는 ‘모델 카드(Model Card)’의 표준화가 요구된다.

벤처 투자 업계 관계자들은 “글로벌 빅테크와의 경쟁이 격화되는 시점에서, 국내 스타트업 간의 소모적인 ‘폭로전’보다는 상호 검증을 통한 기술 고도화가 절실하다”며 “이번 공개 검증 시도가 일회성 이벤트에 그치지 않고, 업계의 투명성을 높이는 새로운 관행으로 자리 잡아야 한다”고 제언했다. 향후 한국 AI 산업이 ‘신뢰’라는 자산을 어떻게 확보하느냐가 글로벌 경쟁력을 가르는 핵심 변수가 될 것으로 보인다.

한편으로는 빠르게 문제를 제기하고 그 문제에 대해 생태계가 신속하게 검증하고 당사자들이 설명하고 납득되는 상황에 대해 공식 사과하는 빠른 자정능력을 업계가 보여줬다는 면에서 긍정적인 시각도 존재한다.

Upstage's AI plagiarism controversy ends…K-AI ecosystem verification draws attention

The 'model plagiarism suspicion' that had been entangled in Upstage, a leading domestic artificial intelligence (AI) startup, at the beginning of the new year has been resolved as a happening just two days later.

This controversy, sparked by a public complaint from a competitor's CEO, has been resolved with an official apology from the parties involved. However, it has gone beyond a simple battle of wits and raised the question of "where does independent technology begin?" in the domestic AI ecosystem. The verification process for the government-led "Independent AI Foundation Model" project and the ethics of healthy competition among technology startups are now being put to the test. The industry is unanimous in its call for the urgent establishment of a scientific and transparent verification system that can ensure the reliability of "Korean AI."

The incident began on January 1st, when Seok-Hyeon Ko, CEO of Psionic AI, raised suspicions via social media that Upstage's large-scale language model (LLM) "Solar Open 100B" closely resembled a model from China's Zhipu AI. Ko cited a technical analysis showing that the cosine similarity between the layer normalization (LayerNorm) weights of the two models reached 96.8%. This immediately sparked a heated debate in the developer community, with some questioning whether a copied model was being used in a national project funded by taxpayer money.

However, Upstage immediately launched a rebuttal. Upstage explained, "During large-scale model learning, the phenomenon of statistical values of a specific layer converging can occur due to structural characteristics," and pointed out that concluding replication solely based on parameter similarity was a technical error. Furthermore, Upstage chose to tackle the issue head-on, announcing a public verification session with external experts and a live YouTube broadcast to clear up the suspicions. Finally, on the 2nd, a day after the issue was raised, CEO Ko posted an official apology, stating, "We accept the criticism that it is difficult to conclude weight sharing based solely on layer value similarity," and the controversy was concluded to have stemmed from a technical misunderstanding.

Where does AI technology independence begin and end?
This incident clearly demonstrates the high difficulty of verification in the technologically advanced generative AI market. LLMs consist of hundreds of billions of parameters, making it difficult to assess the originality of the underlying technology solely based on numerical similarities in a few sections. Especially in the AI field, where the open-source ecosystem is vibrant, "convergent evolution" can occur, where even different models converge to similar results depending on the architecture and training data composition. Experts analyze that this controversy not only exposes the weaknesses of a fragmented metric like cosine similarity, but also confirms the absence of a "comprehensive verification protocol" acceptable to the public and the market.

"We acknowledge the criticism from many that it's difficult to conclude whether model weights are shared solely based on the cosine similarity of layer values. We apologize to Upstage staff for raising suspicions without rigorous verification and causing confusion." (Seonik AI CEO Seok-Hyeon Ko)

"The identified section is a structure where statistically similar values can be generated during the learning process. To resolve any doubts, we will transparently disclose and verify the code and experimental environment to the extent necessary." (Upstage statement)

Although the suspicions have been cleared, the repercussions of this incident are expected to be significant. First, the demand for verification of AI projects funded by public funds, including the government's "Dokpamo" project, is expected to intensify. Beyond simply measuring the performance of the results, standardization of "Model Cards" is required to transparently verify the source of the learning data, the training pipeline, and the architecture design process.

Venture capital industry insiders suggested, "As competition with global big tech intensifies, mutual verification and technological advancement are more crucial than wasteful 'exposure wars' between domestic startups." They added, "This public verification attempt should not be a one-time event, but rather become a new practice that enhances transparency in the industry." Going forward, how the Korean AI industry secures the asset known as "trust" will likely be a key variable in determining its global competitiveness.

On the one hand, there is a positive view that the industry has demonstrated a rapid self-correction ability in that it quickly raises issues, quickly verifies those issues within the ecosystem, and formally apologizes for situations that are explained and understood by the parties involved.

アップステージ「AI盗作論争」終結…迅速なK-AIエコシステム検証「目つき」

新年壁頭から国内代表人工知能(AI)スタートアップアップステージが巻き込まれた「モデル盗作疑惑」提起2日ぶりにハプニングで一段落した。

競争会社代表の公開的な問題提起で触発された今回の議論は当事者の公式謝罪で収拾局面に入ったが、単純な真実工房を越えて国内AIエコシステムに「どこから独自の技術か」に対する話題を投げた。政府主導の「独自AIファンデーションモデル」事業に対する検証プロセスと技術スタートアップ間の健全な競争倫理が試験台に上がったのだ。業界は今回の事件をきっかけに「韓国型AI」の信頼度を担保できる科学的で透明な検証体系の準備が緊急だと口をそろえている。

事件の発端は去る1月1日、サイオニック・エイ・コソクヒョン代表がSNSを通じてアップステージの大規模言語モデル(LLM)「ソーラーオープン100B」が中国ジープ(Zhipu) AIのモデルと似ているという疑惑を提起して始まった。高代表は、両モデルのレイヤ正規化(LayerNorm)重み間のコサイン類似度が96.8%に達するという技術的分析に基づいて提示した。これはすぐに開発者コミュニティを強打し、「国民税が投入される国策課題にコピーモデルが使われたのではないか」という激しい議論を呼び起こした。

しかし、アップステージ側はすぐに反論に出た。アップステージは「大規模モデル学習過程で特定レイヤーの統計的数値が収束する現象は構造的特性上発生する可能性がある」と説明し、単純パラメータ類似度だけで複製を断定することは技術的エラーであることを指摘した。さらにアップステージは疑惑解消のため外部専門家を招いた公開検証セッションとYouTubeライブ生中継を予告して正面突破を選んだ。結局問題提起の一日が去る2日、高代表は「レイヤー値の類似度だけではウエイト共有を結論しにくいという指摘を受け入れる」と公式謝罪文を掲載し、論議は技術的誤解から始まったもので終わった。

人工知能技術独自性、どこからどこまでだろうか?
今回の事態は技術的に高度化された生成型AI市場で「検証の難易度」がどれだけ高いかを如実に見せてくれる。 LLMは数千億個のパラメータで構成されており、一部区間の数値的類似性だけでは源泉技術の独自性を判断することが難しい。特にオープンソース生態系が活発なAI分野では、アーキテクチャと学習データの構成方式によって異なるモデルでも結果値が同様に収束する「収束進化」現象が現れることがある。専門家らは今回の議論がコサイン類似度という断片的指標が持つ盲点を明らかにするとともに、大衆と市場が納得できる「総合検証プロトコル」の不在を確認させてくれたと分析する。

「レイヤーノムレイヤー値のコサイン類似度だけではモデルウェイト共有の有無を結論しにくいという多くの方々の指摘を受け入れます。 (サイオニックエイアイゴソクヒョン代表)

「指摘された区間は、学習過程で統計的に類似した値が出ることができる構造です。疑惑解消のために必要な範囲内でコードと実験環境を透明に公開して検証します。」 (アップステージ側入場扉)

疑惑は解消されたが、今回の事件が残した波長は小さくない見通しだ。まず、政府の「独派母」事業を含め、公的資金が投入されるAIプロジェクトに対する検証要求がさらに激しくなると見られる。単に結果物の性能を測定することを超えて、学習データの出所、トレーニングパイプライン、アーキテクチャの設計過程などを透明に証明できる「モデルカード(Model Card)」の標準化が求められる。

ベンチャー投資業界関係者は「グローバルビッグテックとの競争が激化する時点で、国内スタートアップ間の消耗的な「暴露戦」よりは相互検証を通じた技術高度化が切実だ」とし「今回の公開検証の試みが一回性イベントにとどまらず、業界の透明性を高める新たな慣行に位置づけなければならない」と述べた。今後、韓国AI産業が「信頼」という資産をどのように確保するかが、グローバル競争力を分ける重要な変数になるものと見られる。

一方では迅速に問題を提起し、その問題に対して生態系が迅速に検証し、当事者が説明し、納得される状況について公式謝罪する迅速な深夜能力を業界が見せたという面で肯定的な見方も存在する。

Upstage人工智能抄袭风波落幕……K-AI生态系统验证引发关注

年初国内领先的人工智能(AI)初创公司Upstage卷入的“模型抄袭嫌疑”事件,仅仅两天后就被认定为已结案。

这场由竞争对手CEO公开投诉引发的争议,最终以相关各方正式道歉而告终。然而,它已超越了简单的智力较量,引发了国内人工智能生态系统中“自主技术从何开始?”这一问题。政府主导的“自主人工智能基金会模式”项目的验证流程,以及科技初创企业间良性竞争的伦理,如今正面临考验。业界一致呼吁,亟需建立一套科学透明的验证体系,以确保“韩国人工智能”的可靠性。

事件始于1月1日,当时Psionic AI首席执行官高锡铉(Seok-Hyeon Ko)在社交媒体上质疑Upstage的大规模语言模型(LLM)“Solar Open 100B”与中国智普AI的模型高度相似。高锡铉引用了一份技术分析报告,指出两个模型的层归一化(LayerNorm)权重之间的余弦相似度高达96.8%。这立即在开发者社区引发了激烈的讨论,一些人质疑是否有人将抄袭模型用于由纳税人资助的国家项目。

然而,Upstage立即展开反驳。Upstage解释说:“在大规模模型学习过程中,由于结构特性,特定层的统计值可能会出现收敛现象”,并指出仅基于参数相似性得出复制结论是一个技术错误。此外,Upstage选择正面应对这一问题,宣布将与外部专家进行公开验证,并通过YouTube直播澄清疑虑。最终,在问题提出后的第二天,即2日,CEO Ko发表了正式道歉声明,称“我们接受仅基于层值相似性难以得出权重共享结论的批评”,并认定此次争议源于技术误解。

人工智能技术的独立性界限在哪里?
此次事件清晰地展现了技术高度发达的生成式人工智能市场验证的难度。逻辑逻辑模型(LLM)包含数千亿个参数,仅凭少数几个部分的数值相似性难以评估底层技术的原创性。尤其是在开源生态系统活跃的人工智能领域,“趋同演化”现象时有发生,即不同的模型会根据架构和训练数据构成而收敛到相似的结果。专家分析认为,此次争议不仅暴露了余弦相似度等碎片化指标的缺陷,也证实了目前缺乏公众和市场都能接受的“全面验证协议”。

“我们注意到许多人批评说,仅凭层值的余弦相似度很难判断模型权重是否共享。对于在未进行严格验证的情况下引发疑虑并造成困惑,我们向 Upstage 的工作人员致歉。”(Seonik AI CEO 高锡铉)

“已识别的部分是一个在学习过程中能够生成统计上相似值的结构。为了消除任何疑虑,我们将在必要范围内公开并验证代码和实验环境。”(Upstage声明)

尽管疑虑已消除,但此次事件的影响预计仍将十分深远。首先,包括政府的“独白茂”(Dokpamo)项目在内的公共资金资助的人工智能项目,其验证要求预计将会加强。除了衡量结果的性能之外,还需要对“模型卡”进行标准化,以便透明地验证学习数据的来源、训练流程和架构设计过程。

风险投资行业内部人士指出:“随着与全球大型科技公司的竞争日益激烈,相互验证和技术进步比国内初创企业之间浪费资源的‘曝光战’更为重要。”他们补充道:“这种公开验证不应是一次性的事件,而应成为一种提升行业透明度的新惯例。”展望未来,韩国人工智能产业如何获得“信任”这一宝贵资产,很可能成为决定其全球竞争力的关键因素。

一方面,有积极的观点认为,该行业展现出了快速的自我纠正能力,因为它能够迅速提出问题,迅速在生态系统内核实这些问题,并对相关各方能够解释和理解的情况正式道歉。

La controverse sur le plagiat de l'IA d'Upstage prend fin… La vérification de l'écosystème K-AI attire l'attention

Les soupçons de « plagiat de modèle » qui planaient sur Upstage, une start-up chinoise de premier plan spécialisée dans l'intelligence artificielle (IA), au début de l'année, ont été résolus deux jours plus tard.

Cette controverse, déclenchée par une plainte publique du PDG d'un concurrent, s'est apaisée par des excuses officielles des parties concernées. Cependant, elle a dépassé le simple cadre d'une confrontation intellectuelle et a soulevé la question de la définition même de l'indépendance technologique au sein de l'écosystème coréen de l'IA. Le processus de vérification du projet gouvernemental « Modèle de fondation pour l'IA indépendante » et l'éthique d'une saine concurrence entre les jeunes entreprises technologiques sont désormais mis à l'épreuve. L'ensemble du secteur appelle à la mise en place urgente d'un système de vérification scientifique et transparent, capable de garantir la fiabilité de l'IA coréenne.

L'incident a débuté le 1er janvier, lorsque Seok-Hyeon Ko, PDG de Psionic AI, a émis des soupçons sur les réseaux sociaux, affirmant que le modèle de langage à grande échelle (LLM) « Solar Open 100B » d'Upstage ressemblait fortement à un modèle de la société chinoise Zhipu AI. Ko a cité une analyse technique montrant que la similarité cosinus entre les poids de normalisation des couches (LayerNorm) des deux modèles atteignait 96,8 %. Cette révélation a immédiatement suscité un vif débat au sein de la communauté des développeurs, certains s'interrogeant sur l'utilisation potentielle d'un modèle copié dans un projet national financé par l'argent du contribuable.

Cependant, Upstage a immédiatement réagi. L'entreprise a expliqué : « Lors de l'apprentissage de modèles à grande échelle, la convergence des valeurs statistiques d'une couche spécifique peut se produire en raison de caractéristiques structurelles », et a souligné que conclure à une réplication uniquement sur la base de la similarité des paramètres constituait une erreur technique. De plus, Upstage a choisi de traiter le problème de front, en annonçant une session de vérification publique avec des experts externes et une diffusion en direct sur YouTube afin de dissiper les soupçons. Enfin, le 2, soit le lendemain de la polémique, le PDG, M. Ko, a publié des excuses officielles, déclarant : « Nous reconnaissons qu'il est difficile de conclure à un partage de poids en se basant uniquement sur la similarité des valeurs des couches », et la controverse a été attribuée à un malentendu technique.

Où commence et où s'arrête l'indépendance technologique en matière d'IA ?
Cet incident illustre clairement la grande difficulté de vérification sur le marché technologiquement avancé de l'IA générative. Les modèles linéaires logiques (MLL) comportent des centaines de milliards de paramètres, ce qui rend difficile l'évaluation de l'originalité de la technologie sous-jacente à partir de simples similarités numériques dans quelques sections. En particulier dans le domaine de l'IA, où l'écosystème open source est dynamique, une « évolution convergente » peut se produire : différents modèles peuvent converger vers des résultats similaires en fonction de leur architecture et de la composition des données d'entraînement. Les experts analysent que cette controverse révèle non seulement les faiblesses d'une métrique fragmentée comme la similarité cosinus, mais confirme également l'absence d'un protocole de vérification complet et acceptable pour le public et le marché.

« Nous sommes conscients des critiques selon lesquelles il est difficile de conclure à un partage des pondérations de modèles en se basant uniquement sur la similarité cosinus des valeurs des couches. Nous présentons nos excuses au personnel d'Upstage pour avoir suscité des soupçons sans vérification rigoureuse et causé de la confusion. » (Seok-Hyeon Ko, PDG de Seonik AI)

« La section identifiée est une structure permettant de générer des valeurs statistiquement similaires au cours du processus d'apprentissage. Afin de lever tout doute, nous divulguerons et vérifierons de manière transparente le code et l'environnement expérimental dans la mesure nécessaire. » (Déclaration d'Upstage)

Bien que les soupçons aient été dissipés, les répercussions de cet incident devraient être importantes. Premièrement, la demande de vérification des projets d'IA financés par des fonds publics, notamment le projet gouvernemental « Dokpamo », devrait s'intensifier. Au-delà de la simple mesure des performances, la normalisation des « fiches de modèles » est nécessaire pour vérifier de manière transparente la source des données d'apprentissage, le processus d'entraînement et la conception de l'architecture.

Des acteurs du secteur du capital-risque ont déclaré : « Face à l’intensification de la concurrence avec les géants mondiaux de la tech, la vérification mutuelle et le progrès technologique sont plus importants que les coûteuses guerres de visibilité entre startups nationales. » Ils ont ajouté : « Cette démarche de vérification publique ne doit pas rester un événement ponctuel, mais devenir une pratique courante renforçant la transparence du secteur. » À l’avenir, la manière dont l’industrie coréenne de l’IA instaurera la confiance sera probablement un facteur déterminant de sa compétitivité mondiale.

D'une part, on peut considérer de manière positive que le secteur a fait preuve d'une capacité d'autocorrection rapide, en ce sens qu'il soulève rapidement les problèmes, les vérifie rapidement au sein de l'écosystème et présente des excuses formelles pour les situations expliquées et comprises par les parties concernées.

%d bloggers like this: