– 以差异化信息保护与生成式人工智能相结合的专有技术瞄准全球市场
-成长为全球四大合成数据公司之一
-梦想成为数据世界的“亚马逊”
数据就像人工智能的大脑。正如人类通过不同的经历而成长一样,人工智能也通过丰富的数据发展出复杂的判断力。然而,确保高质量数据并不容易。原始数据采集困难,标注等预处理任务复杂。由于存在敏感信息和个人信息泄露的风险,数据共享受到限制,并且数据分布不平衡会降低分析性能。
有一家公司的出现就是为了解决这些数据问题。 CUBIG 是一家专注于数据安全和合成数据生成的人工智能公司。 CUBIG正准备以其结合差分信息保护技术和生成式人工智能的独特技术进军全球市场。
领导 CUBIG 的联合首席执行官 Bae Ho 目前担任梨花女子大学教授。他获得了伦敦大学信息安全硕士学位和首尔国立大学人工智能博士学位,并因发表世界上第一篇建立人工智能领域隐私和安全的论文而受到关注。联合首席执行官 Jeong Min-chan 拥有多项研发和人工智能相关专利,并拥有开发人工智能数据应用程序的经验。 CTO Ha Heon-seok 是一位人工智能专家,他研究合成数据已超过 10 年。
2021年成立公司后,CUBIG于2023年吸引了Naver D2SF和VNTG的种子投资,并于2024年吸引了韩国开发银行和Intops Investment的pre-A投资。 2024年,荣获信息安全产品创新奖科学技术信息通信部长官奖,并入选SK电讯与韩亚银行共同运营的“第二届人工智能创业加速器”。我们会见了首席执行官 Bae Ho 和首席执行官 Jeong Min-chan,了解了 CUBIG 成为世界上唯一一家专门从事安全合成数据的公司的过程。
■ “挑战全球…… “人工智能是下一代增长引擎”

我们在江南的 Naver D2SF 见到了首席执行官 Jeong Min-chan,他首先告诉初创公司“在海外市场试试运气”。
“在人工智能领域,不要因为失败主义而犹豫创业,也不要因为害怕海外扩张而犹豫不决。 “即使我们在国内不被认可,我们也可以成为海外需要的公司。”
CEO Jeong 将人工智能公司比作“轮子”。 “无论你造出多么好的‘轮子’,如果没有‘跑车’来使用它,它也是毫无价值的。 “但是,如果海外有‘跑车’,我们就可以在那里产生协同效应。”他建议我们在全球市场上寻找一款与我们的‘轮子’相匹配的‘跑车’。
郑代表还强调了韩国人工智能产业的增长潜力。 “韩国也必须出现拥有自己算法的人工智能公司。 “人工智能将成为我们国家的下一个增长引擎,”他说,“人工智能性能的差异来自于学习数据。 “即使使用相同的引擎,如果使用高质量的数据进行学习,也可以获得更好的结果”,他强调了数据在人工智能行业中的重要性。
■ 全球仅有 4 家公司专门从事合成数据
合成数据是克服原始数据局限性的一种替代品。与现有数据不同,它易于获取,不需要预处理,并且对敏感信息的使用没有限制。个人信息泄露风险低,数据共享免费。此外,即使原始数据分布不平衡,也可以提高分析性能。
郑代表将合成数据与博物馆中的复制品进行了比较。 “就像博物馆展示假冒物品而不是真品一样,合成数据取代了敏感的真实数据。真实数据包含遗传信息、财务信息、商业秘密、个人身份信息等敏感信息,受到严格监管。 “英国采用事前审批制度,美国采用事后问责制度,韩国的监管比欧洲更严格,”他解释了合成数据的必要性。换句话说,合成数据可以说是取代因法规而使用受到限制的真实数据的人工数据。
全球范围内只有四家公司(包括 CUBIG)拥有先进的合成数据技术,可以取代个人信息,同时保持实际数据的统计特征和分布。
■ 差异化信息保护与生成式人工智能的结合……加强安全性,同时保持数据质量
生成合成数据时重要的是数据的大小和安全性。例如,公布一个小地区的人口统计数据时,如果分析“OO地区80多岁男性”的人口,由于参数数量较少,存在识别个体的风险。为了解决这些问题,需要差分信息保护技术。
差异化信息保护技术保留了数据集的统计特征,同时使得个体数据无法被识别。差异化信息保护技术是麻省理工学院评选的2020年十大创新技术之一,目前被誉为最安全的数据安全方法。差分信息保护技术的创新之处在于无法恢复到原始数据。与现有的去标识化处理或加密不同,应用了差分信息保护的数据无法恢复到原始信息。这样可以同时实现保护个人信息和利用数据的两个目标。
Bae首席执行官表示:“差异化信息保护技术是目前苹果、美国人口普查局等全球公司和组织采用的最新数据安全技术。该技术的创新之处在于无法恢复原始数据。与现有的去标识化处理或加密不同,应用了差异信息保护的数据无法恢复到其原始信息。 “这同时实现了保护个人信息和利用数据的两个目标。”
CUBIG 更进一步,将差异化信息保护和生成式人工智能结合起来。 Bae首席执行官表示:“如果仅应用差异化信息保护,数据性能下降到70-80%是有极限的。 “为了解决这个问题,我们将差异化信息保护和生成式人工智能结合起来,通过这种方式,我们提出了一种称为‘安全合成数据’的新范式。”安全合成数据是一项创新技术,可以在保持数据质量的同时增强安全性。

■ 创建与原始数据相同的数据,而无需查看原始数据…数据非访问技术
正如创建博物馆复制品需要查看原始数据一样,创建合成数据也需要原始数据。然而,CUBIG 开发了“数据不可访问技术”,可以在不查看原始数据的情况下创建合成数据。
Bae首席执行官表示:“以前,为了数据安全,必须共享原始数据。然而,公司或组织很难向外部方提供敏感数据。 “我们通过数据不可访问技术解决了这个根本问题。”
CUBIG 的数据不可访问技术可以通过“20 个问题”方法在不查看原作的情况下制造假冒产品。如果客户简单地描述他们想要的数据的基本属性,CUBIG 将创建并传输预期的数据集。客户从其中选择合适的数据并重复此过程以提高数据的准确性。
CEO Jeong 表示:“如果您解释第一列是性别,第二列是年龄,我们将生成几组预期数据并发送给您。当客户从其中选择合适的数据时,将创建新的数据集并根据所选数据再次发送。 “我们通过与客户提出‘二十个问题’来提高数据质量,”他解释了数据不可访问技术。
CUBIG获得了数据非访问技术的专利,并通过与Naver的PoC(概念验证)证明了该技术的卓越性。 CEO Jeong 表示,“2024 年 5 月,微软宣布了类似的算法,虽然微软只能处理图像数据,但 CUBIG 可以处理文本、图像和表格等各种类型的数据。”强调了数据不可访问技术的卓越性。
■ “DTS”和“azoo”,数据行业的新范例
CUBIG 提供两个核心解决方案。第一个是 B2B SaaS“DTS”,这是一种允许公司在内部生成合成数据的工具。 DTS 于 2024 年 7 月推出,用于在附属公司之间共享数据并保护 AI 学习的数据,并在订阅模式下运行。
第二个是2024年6月推出的数据交易平台‘azoo’。由于数据规定,各种数据必须单独购买,但通过 azoo,可以使用合成数据将各种数据集成并在一个地方进行交易。
CEO Jeong 表示:“根据现行法规,我们面临着必须从不同来源购买数据的情况。然而,由于合成数据不受监管,所有数据都可以在一个地方购买,比如在线购物中心,”他解释道。
azoo目前提供基本的数据交易功能,并正在准备数据组合服务。综合分析功能也计划于 2025 年上半年推出。通过这一点,我们计划从一个简单的交易平台发展成为一个全面的数据解决方案平台。

■ 进军全球市场,吸引外资
CUBIG目前正在准备进军全球市场。特别是,该战略是首先瞄准数据监管严格的欧洲市场。我们正在建立一家英国公司,并计划吸引海外投资。 CEO Jeong表示:“欧洲有GDPR(通用数据保护条例)等严格的数据法规,因此对我们的解决方案的需求更高。 “我们目前正在准备成立一家英国公司,之后计划进入美国市场,”他在谈到全球扩张计划时表示。
他补充道:“为了让人工智能安全,训练数据必须安全。 CUBIG 将开启数据行业的新范式,”他说,“我们希望成为‘数据世界的亚马逊’。 “就像亚马逊在一个平台上交易来自世界各地的产品一样,我们希望创建一个所有数据都可以安全、自由交易的生态系统。”他表达了在数据行业开辟新视野的雄心。
You must be logged in to post a comment.