Upstage人工智能抄袭风波落幕……K-AI生态系统验证引发关注

年初国内领先的人工智能(AI)初创公司Upstage卷入的“模型抄袭嫌疑”事件,仅仅两天后就被认定为已结案。

这场由竞争对手CEO公开投诉引发的争议,最终以相关各方正式道歉而告终。然而,它已超越了简单的智力较量,引发了国内人工智能生态系统中“自主技术从何开始?”这一问题。政府主导的“自主人工智能基金会模式”项目的验证流程,以及科技初创企业间良性竞争的伦理,如今正面临考验。业界一致呼吁,亟需建立一套科学透明的验证体系,以确保“韩国人工智能”的可靠性。

事件始于1月1日,当时Psionic AI首席执行官高锡铉(Seok-Hyeon Ko)在社交媒体上质疑Upstage的大规模语言模型(LLM)“Solar Open 100B”与中国智普AI的模型高度相似。高锡铉引用了一份技术分析报告,指出两个模型的层归一化(LayerNorm)权重之间的余弦相似度高达96.8%。这立即在开发者社区引发了激烈的讨论,一些人质疑是否有人将抄袭模型用于由纳税人资助的国家项目。

然而,Upstage立即展开反驳。Upstage解释说:“在大规模模型学习过程中,由于结构特性,特定层的统计值可能会出现收敛现象”,并指出仅基于参数相似性得出复制结论是一个技术错误。此外,Upstage选择正面应对这一问题,宣布将与外部专家进行公开验证,并通过YouTube直播澄清疑虑。最终,在问题提出后的第二天,即2日,CEO Ko发表了正式道歉声明,称“我们接受仅基于层值相似性难以得出权重共享结论的批评”,并认定此次争议源于技术误解。

人工智能技术的独立性界限在哪里?
此次事件清晰地展现了技术高度发达的生成式人工智能市场验证的难度。逻辑逻辑模型(LLM)包含数千亿个参数,仅凭少数几个部分的数值相似性难以评估底层技术的原创性。尤其是在开源生态系统活跃的人工智能领域,“趋同演化”现象时有发生,即不同的模型会根据架构和训练数据构成而收敛到相似的结果。专家分析认为,此次争议不仅暴露了余弦相似度等碎片化指标的缺陷,也证实了目前缺乏公众和市场都能接受的“全面验证协议”。

“我们注意到许多人批评说,仅凭层值的余弦相似度很难判断模型权重是否共享。对于在未进行严格验证的情况下引发疑虑并造成困惑,我们向 Upstage 的工作人员致歉。”(Seonik AI CEO 高锡铉)

“已识别的部分是一个在学习过程中能够生成统计上相似值的结构。为了消除任何疑虑,我们将在必要范围内公开并验证代码和实验环境。”(Upstage声明)

尽管疑虑已消除,但此次事件的影响预计仍将十分深远。首先,包括政府的“独白茂”(Dokpamo)项目在内的公共资金资助的人工智能项目,其验证要求预计将会加强。除了衡量结果的性能之外,还需要对“模型卡”进行标准化,以便透明地验证学习数据的来源、训练流程和架构设计过程。

风险投资行业内部人士指出:“随着与全球大型科技公司的竞争日益激烈,相互验证和技术进步比国内初创企业之间浪费资源的‘曝光战’更为重要。”他们补充道:“这种公开验证不应是一次性的事件,而应成为一种提升行业透明度的新惯例。”展望未来,韩国人工智能产业如何获得“信任”这一宝贵资产,很可能成为决定其全球竞争力的关键因素。

一方面,有积极的观点认为,该行业展现出了快速的自我纠正能力,因为它能够迅速提出问题,迅速在生态系统内核实这些问题,并对相关各方能够解释和理解的情况正式道歉。