– 利用结合差分信息保护和生成式人工智能的专有技术,瞄准全球市场。
-发展成为全球四大合成数据公司之一。
梦想成为数据世界的“亚马逊”
数据如同人工智能的大脑。正如人类通过丰富的经验不断成长,人工智能也通过海量数据发展出复杂的判断力。然而,获取高质量数据并非易事。原始数据的收集困难重重,包括标注在内的预处理也十分复杂。由于存在敏感信息和个人信息泄露的风险,数据共享受到限制,而数据分布不均也会降低分析性能。
一家公司应运而生,旨在应对这些数据挑战。CUBIG 是一家人工智能公司,专注于数据安全和合成数据生成。CUBIG 正准备凭借其专有技术进军全球市场,该技术将差分信息保护技术与生成式人工智能相结合。
Cubic 的联合首席执行官裴浩 (Bae Ho) 目前担任梨花女子大学教授。他拥有伦敦大学学院信息安全硕士学位和首尔国立大学人工智能博士学位。他因发表全球首篇确立人工智能领域隐私和安全的论文而备受瞩目。另一位联合首席执行官郑敏灿 (Jeong Min-chan) 拥有多项研发和人工智能相关专利,并在人工智能数据应用开发方面经验丰富。首席技术官河宪锡 (Ha Heon-seok) 是一位人工智能专家,在合成数据领域拥有十余年的研究经验。
自2021年成立以来,Cubic先后于2023年获得Naver D2SF和VNTG的种子轮投资,并于2024年获得韩国开发银行和Intops Investment的A轮前投资。2024年,Cubic荣获韩国科学技术信息通信部部长信息安全产品创新奖,并入选由SK Telecom和韩亚银行联合举办的第二届人工智能创业加速器项目。我们采访了Cubic的CEO裴浩和郑敏灿,了解了Cubic如何成为全球唯一一家专注于安全合成数据的公司。
■ “挑战全球市场……人工智能是下一代增长引擎”

我们在江南区的 Naver D2SF 大会上遇到了 CEO Jeong Min-chan,他首先告诉创业公司要“体验海外市场”。
“在人工智能领域,我们不应该被失败主义情绪所困扰,不应该犹豫不决地创业,也不应该害怕拓展海外市场。即使我们在国内没有获得认可,我们也可以成为一家在海外备受欢迎的公司。”
郑先生将人工智能公司比作“车轮”。他表示:“无论你制造出多么好的车轮,如果没有一辆跑车来驱动它,一切都毫无价值。但是,如果你在海外拥有一辆跑车,你就能在那里创造协同效应。”他建议企业在全球市场找到一辆适合自身“车轮”的“跑车”。
郑先生还强调了韩国人工智能产业的增长潜力。“韩国需要拥有自主研发算法的人工智能公司。人工智能将成为我们国家下一代增长引擎。”他说道。他还强调了数据在人工智能产业中的重要性,并表示:“人工智能性能的差异源于训练数据。即使使用相同的引擎,用高质量数据进行训练也能产生显著更好的结果。”
■ 全球仅有的四家合成数据公司之一
合成数据是一种替代原始数据的方法,它克服了原始数据的局限性。与传统数据不同,合成数据易于获取,无需预处理,且对敏感信息的使用没有任何限制。它降低了个人信息泄露的风险,并允许自由的数据共享。此外,即使原始数据分布不均匀,合成数据也能提高分析性能。
郑社长将合成数据比作博物馆里的复制品。“正如博物馆展出复制品而非真品一样,合成数据取代了敏感的真实数据。真实数据包含基因信息、财务信息、商业机密和个人信息等敏感信息,因此受到严格监管。英国采用事前授权制度,美国采用事后责任制度,而韩国的监管甚至比欧洲更为严格。”他解释道,并阐述了合成数据的必要性。换句话说,合成数据可以被视为一种人工数据,用于替代因监管限制而无法使用的真实数据。
在全球范围内,只有包括 Cubic 在内的四家公司拥有先进的合成数据技术,可以在保持真实数据的统计特征和分布的同时,替换个人信息。
结合差分信息保护和生成式人工智能……在加强安全性的同时保持数据质量
在生成合成数据时,数据的规模和安全性至关重要。例如,发布某个小区域的人口统计数据时,分析“OO 区域 80 多岁男性”的人口数据,由于数据点数量较少,存在识别个人身份的风险。为了解决这个问题,必须采用差异化信息保护技术。
差分数据保护技术在保留数据集统计特征的同时,使个人数据无法识别。该技术被麻省理工学院评选为2020年十大突破性技术之一,目前被公认为最安全的数据保护方法。差分数据保护的创新之处在于其无法恢复原始数据。与现有的匿名化或加密技术不同,经过差分数据保护的数据无法还原到原始状态。这使得隐私保护和数据利用能够同时实现这两个目标。
裴先生解释说:“差分信息保护技术是一种尖端的数据安全技术,目前已被苹果公司和美国人口普查局等全球企业和机构采用。这项技术的创新之处在于,它无法恢复到原始状态。与现有的匿名化或加密技术不同,受差分信息保护的数据无法还原到原始状态。这同时实现了保护个人信息和利用数据的双重目标。”
Cubic 更进一步,将差分信息保护与生成式人工智能相结合。首席执行官 Bae 解释说:“如果仅应用差分信息保护,数据性能只能达到 70-80%。为了解决这个问题,我们将差分信息保护与生成式人工智能相结合,并由此提出了一种名为‘安全合成数据’的新范式。” 安全合成数据是一项创新技术,它能够在增强安全性的同时保持数据质量。

■ 无需查看原始数据即可生成与原始数据完全相同的数据……数据非访问技术
正如复制博物馆藏品需要获取原件一样,创建合成数据也需要原始数据。然而,Cubic公司开发了一种“数据不可访问技术”,无需获取原始数据即可创建合成数据。
裴先生首席执行官解释说:“以前,出于数据安全考虑,原始数据必须共享。然而,企业和组织很难向外部各方提供敏感数据。我们利用数据非访问技术解决了这个根本问题。”
Cubic 的无数据技术无需查看原件即可制造假冒商品,其运作方式类似于“20 个问题”。客户只需描述所需数据的基本属性,Cubic 便会生成并传输预测数据集。客户随后选择合适的数据并重复此过程,从而进一步提高数据的准确性。
郑社长解释了数据访问技术,他说:“如果您说明第一列是性别,第二列是年龄,我们会生成并发送多组预期数据。客户从中选择合适的数据后,我们会根据所选数据创建一个新的数据集并发送给他们。我们通过与客户进行‘二十个问题’式的沟通来提高数据质量。”
Cubic 已为其数据非访问技术申请了专利,并通过与 Naver 的合作概念验证 (PoC) 证明了其优越性。首席执行官 Jeong 强调了 Cubic 数据非访问技术的优越性,他表示:“2024 年 5 月,微软发布了类似的算法。微软只能处理图像数据,而 Cubic 可以处理多种数据类型,包括文本、图像和表格。”
■ “DTS”和“azoo”:数据行业的新范式
Cubic 提供两大核心解决方案。第一大方案是 DTS,这是一款 B2B SaaS 工具,可帮助企业内部生成合成数据。DTS 于 2024 年 7 月推出,用于关联公司之间的数据共享以及保障人工智能训练的数据安全,并采用订阅模式。
第二个是“azoo”,这是一个于 2024 年 6 月推出的数据交易平台。虽然之前的数据法规要求单独购买数据,但 azoo 利用合成数据在一个地方实现各种数据的集成交易。
郑社长解释说:“目前,由于监管规定,数据必须从不同的来源购买。但是,合成数据不受监管,因此所有数据都可以在一个地方购买,就像网上商城一样。”
Azoo目前提供基础数据交易功能,并正在筹备数据聚合服务。此外,计划于2025年上半年推出集成分析功能。通过这些举措,Azoo旨在从一个简单的交易平台发展成为一个综合性的数据解决方案平台。

■ 我们正朝着进入全球市场和吸引海外投资的方向迈进。
Cubic目前正准备拓展全球市场,尤其着眼于以数据监管严格著称的欧洲市场。该公司目前正在筹建英国子公司,并寻求吸引海外投资。首席执行官郑先生表示:“欧洲拥有严格的数据监管法规,例如《通用数据保护条例》(GDPR),这使得我们的解决方案更加重要。我们目前正在筹建英国子公司,并计划之后拓展美国市场。”
他继续说道:“人工智能要安全,训练数据必须安全。Cubic 将为数据行业开辟新的范式。” 他补充道:“我们的目标是成为‘数据界的亚马逊’。正如亚马逊在一个平台上交易来自世界各地的商品一样,我们希望创建一个生态系统,让所有数据都能安全自由地交易。” 他表达了自己为数据行业开辟新天地的雄心壮志。
You must be logged in to post a comment.