La controverse sur le plagiat de l'IA d'Upstage prend fin… La vérification de l'écosystème K-AI attire l'attention

Les soupçons de « plagiat de modèle » qui planaient sur Upstage, une start-up chinoise de premier plan spécialisée dans l'intelligence artificielle (IA), au début de l'année, ont été résolus deux jours plus tard.

Cette controverse, déclenchée par une plainte publique du PDG d'un concurrent, s'est apaisée par des excuses officielles des parties concernées. Cependant, elle a dépassé le simple cadre d'une confrontation intellectuelle et a soulevé la question de la définition même de l'indépendance technologique au sein de l'écosystème coréen de l'IA. Le processus de vérification du projet gouvernemental « Modèle de fondation pour l'IA indépendante » et l'éthique d'une saine concurrence entre les jeunes entreprises technologiques sont désormais mis à l'épreuve. L'ensemble du secteur appelle à la mise en place urgente d'un système de vérification scientifique et transparent, capable de garantir la fiabilité de l'IA coréenne.

L'incident a débuté le 1er janvier, lorsque Seok-Hyeon Ko, PDG de Psionic AI, a émis des soupçons sur les réseaux sociaux, affirmant que le modèle de langage à grande échelle (LLM) « Solar Open 100B » d'Upstage ressemblait fortement à un modèle de la société chinoise Zhipu AI. Ko a cité une analyse technique montrant que la similarité cosinus entre les poids de normalisation des couches (LayerNorm) des deux modèles atteignait 96,8 %. Cette révélation a immédiatement suscité un vif débat au sein de la communauté des développeurs, certains s'interrogeant sur l'utilisation potentielle d'un modèle copié dans un projet national financé par l'argent du contribuable.

Cependant, Upstage a immédiatement réagi. L'entreprise a expliqué : « Lors de l'apprentissage de modèles à grande échelle, la convergence des valeurs statistiques d'une couche spécifique peut se produire en raison de caractéristiques structurelles », et a souligné que conclure à une réplication uniquement sur la base de la similarité des paramètres constituait une erreur technique. De plus, Upstage a choisi de traiter le problème de front, en annonçant une session de vérification publique avec des experts externes et une diffusion en direct sur YouTube afin de dissiper les soupçons. Enfin, le 2, soit le lendemain de la polémique, le PDG, M. Ko, a publié des excuses officielles, déclarant : « Nous reconnaissons qu'il est difficile de conclure à un partage de poids en se basant uniquement sur la similarité des valeurs des couches », et la controverse a été attribuée à un malentendu technique.

Où commence et où s'arrête l'indépendance technologique en matière d'IA ?
Cet incident illustre clairement la grande difficulté de vérification sur le marché technologiquement avancé de l'IA générative. Les modèles linéaires logiques (MLL) comportent des centaines de milliards de paramètres, ce qui rend difficile l'évaluation de l'originalité de la technologie sous-jacente à partir de simples similarités numériques dans quelques sections. En particulier dans le domaine de l'IA, où l'écosystème open source est dynamique, une « évolution convergente » peut se produire : différents modèles peuvent converger vers des résultats similaires en fonction de leur architecture et de la composition des données d'entraînement. Les experts analysent que cette controverse révèle non seulement les faiblesses d'une métrique fragmentée comme la similarité cosinus, mais confirme également l'absence d'un protocole de vérification complet et acceptable pour le public et le marché.

« Nous sommes conscients des critiques selon lesquelles il est difficile de conclure à un partage des pondérations de modèles en se basant uniquement sur la similarité cosinus des valeurs des couches. Nous présentons nos excuses au personnel d'Upstage pour avoir suscité des soupçons sans vérification rigoureuse et causé de la confusion. » (Seok-Hyeon Ko, PDG de Seonik AI)

« La section identifiée est une structure permettant de générer des valeurs statistiquement similaires au cours du processus d'apprentissage. Afin de lever tout doute, nous divulguerons et vérifierons de manière transparente le code et l'environnement expérimental dans la mesure nécessaire. » (Déclaration d'Upstage)

Bien que les soupçons aient été dissipés, les répercussions de cet incident devraient être importantes. Premièrement, la demande de vérification des projets d'IA financés par des fonds publics, notamment le projet gouvernemental « Dokpamo », devrait s'intensifier. Au-delà de la simple mesure des performances, la normalisation des « fiches de modèles » est nécessaire pour vérifier de manière transparente la source des données d'apprentissage, le processus d'entraînement et la conception de l'architecture.

Des acteurs du secteur du capital-risque ont déclaré : « Face à l’intensification de la concurrence avec les géants mondiaux de la tech, la vérification mutuelle et le progrès technologique sont plus importants que les coûteuses guerres de visibilité entre startups nationales. » Ils ont ajouté : « Cette démarche de vérification publique ne doit pas rester un événement ponctuel, mais devenir une pratique courante renforçant la transparence du secteur. » À l’avenir, la manière dont l’industrie coréenne de l’IA instaurera la confiance sera probablement un facteur déterminant de sa compétitivité mondiale.

D'une part, on peut considérer de manière positive que le secteur a fait preuve d'une capacité d'autocorrection rapide, en ce sens qu'il soulève rapidement les problèmes, les vérifie rapidement au sein de l'écosystème et présente des excuses formelles pour les situations expliquées et comprises par les parties concernées.