-차등정보보호와 생성형 AI 결합한 독자 기술로 글로벌 시장 공략나서
-세계 4대 합성데이터 기업으로 성장
-데이터계의 ‘아마존’을 꿈꾸다
데이터는 AI의 두뇌와도 같다. 인간이 다양한 경험을 통해 성장하듯 AI도 풍부한 데이터를 통해 정교한 판단력을 갖추게 된다. 그러나 양질의 데이터를 확보하기가 쉽지 않다. 원본 데이터는 수집이 어렵고 라벨링 등 전처리 작업도 복잡하다. 민감정보와 개인정보 유출 위험이 있어 데이터 공유에 제약이 따르며, 불균형한 데이터 분포는 분석 성능을 떨어뜨린다.
이러한 데이터 문제를 해결하기 위해 등장한 기업이 있다. 데이터 보안과 합성데이터 생성에 특화된 AI 기업 큐빅(CUBIG)이다. 큐빅은 차등정보보호 기술과 생성형 AI를 결합한 독자적인 기술력으로 글로벌 시장 진출을 준비하고 있다.
큐빅을 이끄는 배호 공동대표는 현재 이화여대 교수로 재직 중이다. 런던대학교에서 정보보안 석사를, 서울대학교에서 AI로 박사학위를 받았으며, 세계 최초로 AI 분야의 프라이버시와 보안을 정립하는 논문을 발표해 주목받았다. 정민찬 공동대표는 다수의 R&D와 AI 관련 특허를 보유하고 있으며, AI 데이터 어플리케이션 개발 경력을 갖고 있다. 하헌석 CTO는 10년 이상 합성데이터를 연구해온 AI 전문가다.
2021년 법인 설립 후, 큐빅은 2023년에 네이버 D2SF와 VNTG로부터 시드 투자를, 2024년에는 산업은행, 인탑스인베스트먼트로부터 프리A 투자를 유치했다. 2024년에는 정보보호제품 혁신대상에서 과학기술정보통신부 장관상을 수상했으며, SK텔레콤과 하나은행이 공동 운영하는 ‘AI 스타트업 액셀러레이터 2기’에 선정되었다. 배호 대표와 정민찬 대표를 만나 큐빅은 이처럼 세계 유일의 보안 합성데이터 전문 회사로 자리매김하게 된 과정에 대해 이야기를 들어봤다.
■ “글로벌에 도전하라…AI는 차세대 성장동력”

강남 소재 네이버 D2SF에서 만난 정민찬 대표는 스타트업들에게 ‘해외 시장에서 부딪쳐보라’는 말부터 꺼냈다.
“AI 분야에서 패배주의에 빠져 창업을 망설이거나 해외 진출을 두려워하지 말아야 합니다. 국내에서 인정받지 못해도 해외에서는 필요로 하는 기업이 될 수 있습니다.”
정 대표는 AI 기업을 ‘바퀴’에 비유했다. “아무리 좋은 ‘바퀴’를 만들어도 이를 활용할 ‘스포츠카’가 없다면 가치가 없습니다. 하지만 해외에 ‘스포츠카’가 있다면, 그곳에서 시너지를 만들어낼 수 있습니다.”라고 말하면서 글로벌 시장에서 자사의 ‘바퀴’와 맞는 ‘스포츠카’를 찾으라고 조언했다.
정 대표는 한국 AI 산업의 성장 가능성도 강조했다. “한국에도 독자적인 알고리즘을 가진 AI 기업이 나와야 합니다. AI는 우리나라의 차세대 성장 동력이 될 것입니다”라고 말하면서 “AI의 성능 차이는 학습 데이터에서 비롯됩니다. 동일한 엔진이라도 양질의 데이터로 학습하면 훨씬 뛰어난 결과를 얻을 수 있습니다”라며 AI 산업에서의 데이터의 중요성을 역설했다.
■ 전 세계 4곳뿐인 합성데이터 전문 기업
합성데이터는 원본 데이터의 한계를 극복하는 일종의 대체재 같은 것이다. 기존 데이터와 달리 확보가 용이하고 전처리가 불필요하며, 민감 정보 활용에 제약이 없다. 개인정보 유출 위험이 낮고 데이터 공유도 자유롭다. 또한 원본 데이터의 분포가 불균형하더라도 분석 성능을 개선할 수 있다.
정 대표는 합성데이터를 박물관의 모조품에 비유했다. “박물관에서 진품 대신 모조품을 전시하듯 합성데이터는 민감한 실제 데이터를 대체합니다. 진짜 데이터에는 유전자 정보, 금융 정보, 기업 기밀, 개인 신상정보와 같은 민감 정보가 포함되어 있어 엄격한 규제를 받습니다. 영국은 사전 허가제를, 미국은 사후 책임제를 적용하며, 한국은 유럽보다 더 강력한 규제를 시행하고 있습니다”라고 합성데이터의 필요성에 대해 설명했다. 즉 합성데이터는 규제로 인해 활용이 제한된 실제 데이터를 대체하는 인공 데이터라고 할 수 있다.
실제 데이터의 통계적 특성과 분포는 유지하면서 개인정보만 대체하는 고도화된 합성데이터 기술을 보유한 기업은 전 세계적으로 큐빅을 포함해 단 4곳뿐이다.
■ 차등정보보호와 생성형 AI의 결합…데이터 품질 유지하면서도 보안성 강화
합성데이터를 생성할 때 중요한 것은 데이터의 규모와 안전성이다. 예를 들어 작은 지역의 인구통계를 발표한다고 했을 때, ‘OO지역의 80대 남성’ 인구를 분석한다면, 모수가 적어 개인을 특정할 위험이 있다. 이러한 문제를 해결하기 위해 차등정보보호 기술이 필요하다.
차등정보보호 기술은 데이터셋의 통계적 특성은 보존하면서 개별 데이터의 식별은 불가능하게 만든다. 차등정보보호 기술은 MIT가 선정한 2020년 10대 혁신기술 중 하나로 현재 가장 안전한 데이터 보안 방식으로 알려져 있다. 차등정보보호 기술의 혁신성은 원본 데이터로의 복원이 불가능하다는 점이다. 기존의 비식별화 처리나 암호화와 달리, 차등정보보호가 적용된 데이터는 원래 정보로 되돌릴 수 없다. 이는 개인정보 보호와 데이터 활용이라는 두 가지 목표를 동시에 달성할 수 있게 해준다.
배 대표는 “차등정보보호기술은 현재 애플, 미국 인구통계국(Census Bureau)과 같은 글로벌 기업과 기관에서 채택한 최신 데이터 보안 기술입니다. 이 기술의 혁신성은 원본 데이터로의 복원이 불가능하다는 점입니다. 기존의 비식별화 처리나 암호화와 달리, 차등정보보호가 적용된 데이터는 원래 정보로 되돌릴 수 없습니다. 이는 개인정보 보호와 데이터 활용이라는 두 가지 목표를 동시에 달성해줍니다.”라고 설명했다.
큐빅은 여기서 한 걸음 더 나아가 차등정보보호와 생성형 AI를 결합했다. 배 대표는 “차등정보보호만 적용하면 데이터 성능이 70-80% 수준으로 떨어지는 한계가 있습니다. 저희는 이 문제를 해결하기 위해 차등정보보호와 생성형 AI를 결합했고, 이를 통해 ‘보안합성데이터’라는 새로운 패러다임을 제시했습니다”라고 설명했다. 보안합성데이터는 데이터의 품질은 유지하면서도 보안성을 강화한 혁신적인 기술이다.

■ 원본 데이터를 보지 않고도 원본과 같은 데이터를 생성…데이터비접근 기술
박물관의 모조품을 만들려면 진품을 봐야 하듯이, 합성데이터 생성도 원본 데이터가 필요하다. 하지만 큐빅은 원본 데이터를 보지 않고도 합성데이터를 만드는 ‘데이터 비접근 기술’을 개발했다.
배 대표는 “기존에는 데이터 보안을 위해서라도 원본 데이터를 공유해야 했습니다. 하지만 기업이나 기관 입장에서는 민감한 데이터를 외부에 제공하기 어렵죠. 저희는 데이터 비접근 기술로 이 근본적인 문제를 해결했습니다”라고 설명했다.
진품을 보지 않고 모조품을 만들기 위한 큐빅의 데이터 비접근 기술은 ‘스무고개’ 방식으로 작동한다. 고객이 원하는 데이터의 기본 속성만 설명하면, 큐빅이 예상되는 데이터셋을 생성해 전송한다. 고객은 이 중에서 적합한 데이터를 선택하고, 이 과정을 반복하며 데이터의 정확도를 높인다.
정 대표는 “첫번째 칼럼은 성별, 두번째 칼럼은 연령이라고 설명해주면 예상되는 데이터를 여러 세트 생성해서 보냅니다. 고객이 이 중에서 적합한 데이터에서 선택하면, 선택된 데이터를 기반으로 다시 새로운 데이터셋을 만들어 보냅니다. 고객과 ‘스무고개’를 하면서 데이터의 품질을 높여갑니다”라고 데이터 비접근 기술을 설명했다.
큐빅은 데이터 비접근 기술로 특허를 취득했으며 네이버와의 PoC(Proof of Concept)를 통해 기술의 우수성을 입증했다. 정 대표는 “2024년 5월에는 마이크로소프트가 유사한 알고리즘을 발표했는데 마이크로소프트는 이미지 데이터만 처리할 수 있는 반면, 큐빅은 텍스트, 이미지, 테이블 등 다양한 형태의 데이터를 처리할 수 있습니다.”라고 큐빅의 데이터 비접근 기술의 우수성을 강조했다.
■ ‘DTS’와 ‘azoo’, 데이터 산업의 새로운 패러다임
큐빅은 두 가지 핵심 솔루션을 제공한다. 첫째는 B2B SaaS ‘DTS’로, 기업이 내부적으로 합성데이터를 생성할 수 있는 툴이다. 2024년 7월 출시된 DTS는 계열사 간 데이터 공유와 AI 학습용 데이터 확보에 활용되며, 구독 모델로 운영된다.
둘째는 2024년 6월 출시된 데이터 거래 플랫폼 ‘azoo’다. 데이터 규제로 인해 각종 데이터를 개별적으로 구매해야 했지만, azoo에서는 합성데이터를 활용해 다양한 데이터를 한 곳에서 통합 거래할 수 있다.
정 대표는 “현재 규제 때문에 데이터를 각각 다른 곳에서 사야 하는 상황입니다. 하지만 합성데이터는 규제 대상이 아니어서, 마치 온라인 쇼핑몰처럼 모든 데이터를 한 곳에서 구매할 수 있습니다.”라고 설명했다.
azoo는 현재 기본적인 데이터 거래 기능을 제공하고 있으며, 데이터 결합 서비스를 준비 중이다. 2025년 상반기에는 통합 분석 기능도 도입될 예정이다. 이를 통해 단순한 거래 플랫폼을 넘어 종합 데이터 솔루션 플랫폼으로 발전할 계획이다.

■ 글로벌 시장 진출과 해외 투자 유치에 나서
큐빅은 현재 글로벌 시장 진출을 준비 중이다. 특히 데이터 규제가 엄격한 유럽 시장을 우선 공략한다는 전략이다. 영국 법인 설립을 진행하고 있으며, 해외 투자 유치도 앞두고 있다. 정 대표는 “유럽은 GDPR(General Data Protection Regulation)과 같은 엄격한 데이터 규제가 있어 저희 솔루션의 필요성이 더 높습니다. 현재 영국 법인 설립을 준비 중이며, 이후 미국 시장도 진출할 계획입니다”라고 글로벌 진출 계획에 대해 말했다.
그러면서 “AI가 안전해지려면 학습 데이터가 안전해야 합니다. 큐빅이 데이터 산업의 새로운 패러다임을 열겠습니다”라며 말하면서 “저희는 ‘데이터계의 아마존’이 되고자 합니다. 아마존이 전 세계의 상품을 하나의 플랫폼에서 거래하듯, 저희도 모든 데이터를 안전하고 자유롭게 거래할 수 있는 생태계를 만들고 싶습니다”라며 데이터 산업의 새로운 지평을 열어가겠다는 포부를 밝혔다.
Cubic: "We will open a new path for Korea's AI industry with synthetic data."
– Targeting the global market with proprietary technology combining differential information protection and generative AI.
-Growing into one of the world's top four synthetic data companies.
Dreaming of becoming the 'Amazon' of the data world
Data is like the brain of AI. Just as humans grow through diverse experiences, AI develops sophisticated judgment through abundant data. However, securing high-quality data is not easy. Collecting raw data is difficult, and preprocessing, including labeling, is complex. Data sharing is restricted due to the risk of sensitive information and personal information leaks, and unbalanced data distribution reduces analytical performance.
A company has emerged to address these data challenges. CUBIG is an AI company specializing in data security and synthetic data generation. CUBIG is preparing to enter the global market with its proprietary technology, combining differential information protection technology with generative AI.
Cubic's co-CEO, Bae Ho, currently serves as a professor at Ewha Womans University. He received a master's degree in information security from University College London and a doctorate in AI from Seoul National University. He garnered attention for publishing the world's first paper establishing privacy and security in the AI field. Co-CEO Jeong Min-chan holds numerous R&D and AI-related patents and has experience developing AI data applications. CTO Ha Heon-seok is an AI expert who has researched synthetic data for over a decade.
Since its incorporation in 2021, Cubic has secured seed investment from Naver D2SF and VNTG in 2023, and pre-A round investment from the Korea Development Bank and Intops Investment in 2024. In 2024, Cubic won the Minister of Science and ICT Award at the Information Security Product Innovation Awards and was selected for the 2nd AI Startup Accelerator, jointly run by SK Telecom and Hana Bank. We met with CEOs Bae Ho and Jeong Min-chan to learn about Cubic's journey to becoming the world's only company specializing in secure synthetic data.
■ "Challenge the Global Market…AI is the Next Generation Growth Engine"

CEO Jeong Min-chan, whom we met at Naver D2SF in Gangnam, started by telling startups to "experience the overseas market."
"In the AI field, we shouldn't be discouraged by defeatism, hesitate to start a business, or fear expanding overseas. Even if we don't gain recognition domestically, we can become a company that's in demand overseas."
CEO Jeong likened AI companies to "wheels." "No matter how good a wheel you create, it's worthless if you don't have a sports car to utilize it. However, if you have a sports car overseas, you can create synergy there," he said, advising companies to find a "sports car" that fits their "wheels" in the global market.
CEO Jeong also emphasized the growth potential of the Korean AI industry. "Korea needs to have AI companies with proprietary algorithms. AI will become our country's next-generation growth engine," he said. He emphasized the importance of data in the AI industry, saying, "The difference in AI performance stems from training data. Even with the same engine, training with high-quality data can yield significantly better results."
■ One of only four synthetic data companies in the world
Synthetic data is a kind of substitute that overcomes the limitations of original data. Unlike traditional data, it is easy to obtain, requires no preprocessing, and has no restrictions on the use of sensitive information. It reduces the risk of personal information leaks and allows for free data sharing. Furthermore, it can improve analytical performance even when the original data distribution is uneven.
CEO Jeong likened synthetic data to a replica in a museum. "Just as a museum exhibits replicas instead of genuine items, synthetic data replaces sensitive real data. Real data contains sensitive information such as genetic information, financial information, corporate secrets, and personal information, and is therefore subject to strict regulations. The UK uses a prior authorization system, the US uses an ex post facto liability system, and Korea has even stricter regulations than Europe," he explained, explaining the necessity of synthetic data. In other words, synthetic data can be considered artificial data that replaces real data whose use is restricted due to regulations.
Globally, only four companies, including Cubic, possess advanced synthetic data technology that replaces personal information while maintaining the statistical characteristics and distribution of real data.
Combining Differential Information Protection and Generative AI… Strengthening Security While Maintaining Data Quality
When generating synthetic data, the scale and security of the data are crucial. For example, when releasing demographic statistics for a small region, analyzing the population of "men in their 80s in Region OO" poses a risk of identifying individuals due to the small number of data points. To address this issue, differential information protection technology is necessary.
Differential data protection technology preserves the statistical characteristics of a dataset while rendering individual data unidentifiable. Differential data protection technology was selected by MIT as one of the top 10 breakthrough technologies of 2020 and is currently recognized as the most secure data security method. The innovation of differential data protection lies in its inability to restore the original data. Unlike existing anonymization or encryption, data subjected to differential data protection cannot be reverted to its original state. This allows for the simultaneous achievement of the dual goals of privacy protection and data utilization.
CEO Bae explained, "Differential information protection technology is a cutting-edge data security technology currently adopted by global companies and institutions such as Apple and the U.S. Census Bureau. What makes this technology innovative is that it cannot be restored to its original state. Unlike existing anonymization or encryption, data subject to differential information protection cannot be reverted to its original state. This achieves the dual goals of protecting personal information and utilizing data simultaneously."
Cubic went one step further, combining differential information protection with generative AI. CEO Bae explained, "If differential information protection alone is applied, data performance is limited to 70-80%. To address this issue, we combined differential information protection with generative AI, and through this, we presented a new paradigm called 'secure synthetic data.'" Secure synthetic data is an innovative technology that enhances security while maintaining data quality.

■ Generates data identical to the original without viewing the original data… Data non-access technology
Just as creating a replica of a museum piece requires access to the original, creating synthetic data also requires original data. However, Cubic has developed "data-inaccessible technology" that creates synthetic data without access to the original data.
CEO Bae explained, "Previously, for data security reasons, original data had to be shared. However, companies and organizations find it difficult to provide sensitive data to external parties. We've solved this fundamental problem with data non-access technology."
Cubic's data-free technology, which allows for the creation of counterfeit goods without the need to see the original, operates using a "20 Questions" approach. Customers simply describe the basic properties of the data they want, and Cubic generates and transmits a predicted dataset. Customers then select the appropriate data and repeat this process, further improving the accuracy of their data.
CEO Jeong explained the data access technology, saying, "If you explain that the first column is gender and the second is age, we'll generate and send multiple sets of expected data. Once the customer selects the appropriate data from these, we'll create a new dataset based on the selected data and send it to them. We improve data quality by playing 'Twenty Questions' with the customer."
Cubic has patented its data-non-access technology and has proven its superiority through a Proof of Concept (PoC) with Naver. CEO Jeong emphasized the superiority of Cubic's data-non-access technology, saying, "In May 2024, Microsoft announced a similar algorithm. While Microsoft could only process image data, Cubic can process diverse data types, including text, images, and tables."
■ 'DTS' and 'azoo', a new paradigm for the data industry
Cubic offers two core solutions. The first is DTS, a B2B SaaS tool that enables companies to internally generate synthetic data. Launched in July 2024, DTS is used for data sharing between affiliates and securing data for AI training, and operates on a subscription model.
The second is "azoo," a data trading platform launched in June 2024. While data regulations previously required individual data purchases, azoo leverages synthetic data to enable integrated trading of diverse data in one place.
CEO Jeong explained, "Currently, due to regulations, data must be purchased from different sources. However, synthetic data is not subject to regulation, so all data can be purchased in one place, much like an online shopping mall."
Azoo currently offers basic data trading capabilities and is preparing a data aggregation service. Integrated analytics capabilities are also planned for the first half of 2025. Through these initiatives, Azoo aims to evolve beyond a simple trading platform into a comprehensive data solutions platform.

■ We are moving towards entering the global market and attracting overseas investment.
Cubic is currently preparing to expand into the global market, with a particular focus on targeting the European market, known for its strict data regulations. The company is currently in the process of establishing a UK subsidiary and is also looking to attract foreign investment. CEO Jeong stated, "Europe has stringent data regulations, such as the General Data Protection Regulation (GDPR), which makes our solutions even more essential. We are currently preparing to establish a UK subsidiary, and we plan to expand into the US market afterward."
He continued, "For AI to be safe, training data must be safe. Cubic will open a new paradigm for the data industry." He added, "We aim to become the 'Amazon of the data world.' Just as Amazon trades products from all over the world on a single platform, we want to create an ecosystem where all data can be traded safely and freely." He expressed his ambition to open a new horizon for the data industry.
キュービック、「合成データで韓国AI産業の新しい道を開く」
– 差分情報保護と生成型AIを組み合わせた独自技術でグローバル市場攻略後
-世界4大合成データ企業に成長
-データ系の「アマゾン」を夢見る
データはAIの脳と同じです。人間が多様な経験を通じて成長するように、AIも豊富なデータを通じて精巧な判断力を備えることになる。しかし、良質のデータを確保することは容易ではない。元のデータは収集が難しく、ラベリングなどの前処理作業も複雑です。機密情報と個人情報の漏洩リスクがあり、データ共有に制約があり、不均衡なデータ分布は分析性能を低下させる。
このようなデータ問題を解決するために登場した企業がある。データセキュリティと合成データ生成に特化したAI企業キュービック(CUBIG)だ。キュービックは、差分情報保護技術と生成型AIを組み合わせた独自の技術力でグローバル市場進出を準備している。
キュービックを率いる配護共同代表は現在梨花女子大学教授として在職中だ。ロンドン大学で情報セキュリティの修士号を、ソウル大学でAIで博士号を取得し、世界で初めてAI分野のプライバシーとセキュリティを確立する論文を発表して注目された。チョン・ミンチャン共同代表は多数のR&DとAI関連特許を保有しており、AIデータアプリケーション開発の経歴を持っている。ハ・ホンソクCTOは10年以上合成データを研究してきたAI専門家だ。
2021年法人設立後、キュービックは2023年にネイバーD2SFとVNTGからシード投資を、2024年には産業銀行、イントップスインベストメントからフリーA投資を誘致した。 2024年には情報保護製品革新対象で科学技術情報通信部長官賞を受賞し、SKテレコムとハナ銀行が共同運営する「AIスタートアップアクセラレータ2期」に選ばれた。配護代表とチョン・ミンチャン代表に会ってキュービックはこのように世界唯一のセキュリティ合成データ専門会社として位置づけられるようになった過程について話を聞いた。
■「グローバルに挑戦せよ…AIは次世代成長動力」

江南(カンナム)のネイバーD2SFで出会ったチョン・ミンチャン代表はスタートアップに「海外市場でぶつかってみよう」という言葉から取り出した。
「AI分野で敗北主義に陥って創業を躊躇したり、海外進出を恐れてはいけません。国内で認められなくても海外では必要とする企業になることができます」
チョン代表はAI企業を「ホイール」に例えた。 「いくら良い「ホイール」を作っても、これを活用する「スポーツカー」がなければ価値はありません。 しかし、海外に「スポーツカー」があれば、そこで相乗効果を生み出すことができます」
チョン代表は韓国AI産業の成長可能性も強調した。 「韓国にも独自のアルゴリズムを持つAI企業が出なければなりません。AIは我が国の次世代成長動力になるでしょう」と述べ、「AIの性能差は学習データに由来します。同じエンジンでも良質なデータで学習すればはるかに優れた結果が得られます」とAI産業におけるデータの重要性をパラドックスにした。
■ 世界4ヶ所だけの合成データ専門企業
合成データは、元のデータの限界を克服する一種の代替材料のようなものです。従来のデータと異なり、確保が容易で前処理が不要で、機密情報の活用に制約がない。個人情報の漏洩リスクが低く、データ共有も自由だ。また、元データの分布が不均衡であっても分析性能を向上させることができる。
チョン代表は合成データを博物館の模造品に例えた。 「博物館で本物の代わりに模造品を展示するように、合成データは敏感な実際のデータを置き換えます。本物のデータには遺伝子情報、金融情報、企業機密、個人身上情報などの機密情報が含まれており、厳しい規制を受けます。英国は事前許可制を、米国は事後責任制を適用し、韓国は欧州より説明した。すなわち、合成データは、規制のために利用が制限された実際のデータを置き換える人工データといえる。
実際のデータの統計的特性と分布は維持しながら個人情報だけを置き換える高度化された合成データ技術を保有している企業は、世界的にキュービックを含めたわずか4カ所である。
■差分情報保護と生成型AIの結合…データ品質を維持しながらセキュリティを強化
合成データを作成する際に重要なのは、データの規模と安全性です。例えば、小さな地域の人口統計を発表するとしたとき、「OO地域の80代男性」人口を分析すると、パラメータが少なくて個人を特定する危険がある。この問題を解決するには、差分情報保護技術が必要です。
差分情報保護技術は、データセットの統計的特性を保存しながら、個々のデータの識別は不可能にする。差分情報保護技術は、MITが選定した2020年の10代革新技術の一つで、現在最も安全なデータセキュリティ方式として知られている。差分情報保護技術の革新性は、元のデータへの復元が不可能であるという点だ。既存の非識別化処理や暗号化とは異なり、差分情報保護が適用されたデータは元の情報に戻すことができない。これにより、個人情報保護とデータ活用という2つの目標を同時に達成することができます。
船代表は「差別情報保護技術は現在、アップル、米国人口統計局(Census Bureau)などのグローバル企業や機関が採用した最新のデータセキュリティ技術です。達成してくれます。」と説明した。
キュービックはここでさらに一歩進んで、差分情報保護と生成型AIを結合した。船代表は「差分情報保護だけを適用すればデータ性能が70-80%水準に落ちる限界があります。私たちはこの問題を解決するために差分情報保護と生成型AIを結合し、これを通じて「セキュリティ合成データ」という新しいパラダイムを提示しました」と説明した。セキュリティ合成データは、データの品質を維持しながらもセキュリティを強化した革新的な技術です。

■オリジナルデータを見なくてもオリジナルと同じデータを作成…データ非アクセス技術
博物館の模造品を作るには本物を見なければならないように、合成データ生成も元のデータが必要だ。しかし、キュービックは元のデータを見なくても合成データを作る「データ非アクセス技術」を開発した。
船代表は「従来はデータセキュリティのためにも元のデータを共有しなければなりませんでしたが、企業や機関の立場では機密データを外部に提供することは困難です。私たちはデータ非アクセス技術でこの根本的な問題を解決しました」と説明した。
本物を見ずに模倣品を作るためのキュービックのデータ非アクセス技術は「二十頭」方式で動作する。顧客が所望のデータの基本属性のみを説明すると、キュービックが予想されるデータセットを生成して送信する。顧客はこれらの中から適切なデータを選択し、このプロセスを繰り返し、データの精度を高めます。
チョン代表は「第1コラムは性別、第2コラムは年齢と説明すれば予想されるデータを複数セット生成して送ります。顧客がこの中から適切なデータから選択すれば、選択したデータに基づいて再び新しいデータセットを作り出します。
キュービックはデータ非アクセス技術で特許を取得し、ネイバーとのPoC(Proof of Concept)を通じて技術の卓越性を立証した。チョン代表は「2024年5月にはマイクロソフトが同様のアルゴリズムを発表したが、マイクロソフトはイメージデータのみ処理できる反面、キュービックはテキスト、イメージ、テーブルなど多様な形態のデータを処理できます」とキュービックのデータ非アクセス技術の卓越性を強調した。
■「DTS」と「azoo」、データ業界の新しいパラダイム
キュービックは2つのコアソリューションを提供します。まずはB2B SaaS 'DTS'で、企業が内部的に合成データを生成できるツールだ。 2024年7月に発売されたDTSは、系列会社間のデータ共有とAI学習用のデータ確保に活用され、購読モデルとして運営される。
第二は、2024年6月に発売されたデータ取引プラットフォーム「azoo」だ。データ規制により各種データを個別に購入しなければならなかったが、azooでは合成データを活用して多様なデータを一箇所で統合取引することができる。
チョン代表は「現在の規制のため、データをそれぞれ別の場所で買わなければならない状況ですが、合成データは規制対象ではなく、まるでオンラインショッピングモールのようにすべてのデータを一箇所で購入できます」と説明した。
azooは現在、基本的なデータ取引機能を提供しており、データ結合サービスを準備中です。 2025年上半期には統合分析機能も導入される予定だ。これにより、単純な取引プラットフォームを超えて総合データソリューションプラットフォームに発展する計画だ。

■グローバル市場への参入と海外投資の誘致に
キュービックは現在、グローバル市場進出を準備している。特にデータ規制が厳しいヨーロッパ市場を優先攻略するという戦略だ。英国法人設立を進めており、海外投資誘致も控えている。チョン代表は「欧州はGDPR(General Data Protection Regulation)のような厳しいデータ規制があり、私たちのソリューションの必要性が高いです。現在、英国法人設立を準備中であり、以後米国市場も進出する計画です」とグローバル進出計画について語った。
それとともに「AIが安全になるためには学習データが安全でなければなりません。キュービックがデータ産業の新しいパラダイムを開きます」と言いながら「私たちは「データ系のアマゾン」になりたいと思います。開いていくという抱負を明らかにした。
Cubic:“我们将利用合成数据为韩国人工智能产业开辟一条新道路。”
– 利用结合差分信息保护和生成式人工智能的专有技术,瞄准全球市场。
-发展成为全球四大合成数据公司之一。
梦想成为数据世界的“亚马逊”
数据如同人工智能的大脑。正如人类通过丰富的经验不断成长,人工智能也通过海量数据发展出复杂的判断力。然而,获取高质量数据并非易事。原始数据的收集困难重重,包括标注在内的预处理也十分复杂。由于存在敏感信息和个人信息泄露的风险,数据共享受到限制,而数据分布不均也会降低分析性能。
一家公司应运而生,旨在应对这些数据挑战。CUBIG 是一家人工智能公司,专注于数据安全和合成数据生成。CUBIG 正准备凭借其专有技术进军全球市场,该技术将差分信息保护技术与生成式人工智能相结合。
Cubic 的联合首席执行官裴浩 (Bae Ho) 目前担任梨花女子大学教授。他拥有伦敦大学学院信息安全硕士学位和首尔国立大学人工智能博士学位。他因发表全球首篇确立人工智能领域隐私和安全的论文而备受瞩目。另一位联合首席执行官郑敏灿 (Jeong Min-chan) 拥有多项研发和人工智能相关专利,并在人工智能数据应用开发方面经验丰富。首席技术官河宪锡 (Ha Heon-seok) 是一位人工智能专家,在合成数据领域拥有十余年的研究经验。
自2021年成立以来,Cubic先后于2023年获得Naver D2SF和VNTG的种子轮投资,并于2024年获得韩国开发银行和Intops Investment的A轮前投资。2024年,Cubic荣获韩国科学技术信息通信部部长信息安全产品创新奖,并入选由SK Telecom和韩亚银行联合举办的第二届人工智能创业加速器项目。我们采访了Cubic的CEO裴浩和郑敏灿,了解了Cubic如何成为全球唯一一家专注于安全合成数据的公司。
■ “挑战全球市场……人工智能是下一代增长引擎”

我们在江南区的 Naver D2SF 大会上遇到了 CEO Jeong Min-chan,他首先告诉创业公司要“体验海外市场”。
“在人工智能领域,我们不应该被失败主义情绪所困扰,不应该犹豫不决地创业,也不应该害怕拓展海外市场。即使我们在国内没有获得认可,我们也可以成为一家在海外备受欢迎的公司。”
郑先生将人工智能公司比作“车轮”。他表示:“无论你制造出多么好的车轮,如果没有一辆跑车来驱动它,一切都毫无价值。但是,如果你在海外拥有一辆跑车,你就能在那里创造协同效应。”他建议企业在全球市场找到一辆适合自身“车轮”的“跑车”。
郑先生还强调了韩国人工智能产业的增长潜力。“韩国需要拥有自主研发算法的人工智能公司。人工智能将成为我们国家下一代增长引擎。”他说道。他还强调了数据在人工智能产业中的重要性,并表示:“人工智能性能的差异源于训练数据。即使使用相同的引擎,用高质量数据进行训练也能产生显著更好的结果。”
■ 全球仅有的四家合成数据公司之一
合成数据是一种替代原始数据的方法,它克服了原始数据的局限性。与传统数据不同,合成数据易于获取,无需预处理,且对敏感信息的使用没有任何限制。它降低了个人信息泄露的风险,并允许自由的数据共享。此外,即使原始数据分布不均匀,合成数据也能提高分析性能。
郑社长将合成数据比作博物馆里的复制品。“正如博物馆展出复制品而非真品一样,合成数据取代了敏感的真实数据。真实数据包含基因信息、财务信息、商业机密和个人信息等敏感信息,因此受到严格监管。英国采用事前授权制度,美国采用事后责任制度,而韩国的监管甚至比欧洲更为严格。”他解释道,并阐述了合成数据的必要性。换句话说,合成数据可以被视为一种人工数据,用于替代因监管限制而无法使用的真实数据。
在全球范围内,只有包括 Cubic 在内的四家公司拥有先进的合成数据技术,可以在保持真实数据的统计特征和分布的同时,替换个人信息。
结合差分信息保护和生成式人工智能……在加强安全性的同时保持数据质量
在生成合成数据时,数据的规模和安全性至关重要。例如,发布某个小区域的人口统计数据时,分析“OO 区域 80 多岁男性”的人口数据,由于数据点数量较少,存在识别个人身份的风险。为了解决这个问题,必须采用差异化信息保护技术。
差分数据保护技术在保留数据集统计特征的同时,使个人数据无法识别。该技术被麻省理工学院评选为2020年十大突破性技术之一,目前被公认为最安全的数据保护方法。差分数据保护的创新之处在于其无法恢复原始数据。与现有的匿名化或加密技术不同,经过差分数据保护的数据无法还原到原始状态。这使得隐私保护和数据利用能够同时实现这两个目标。
裴先生解释说:“差分信息保护技术是一种尖端的数据安全技术,目前已被苹果公司和美国人口普查局等全球企业和机构采用。这项技术的创新之处在于,它无法恢复到原始状态。与现有的匿名化或加密技术不同,受差分信息保护的数据无法还原到原始状态。这同时实现了保护个人信息和利用数据的双重目标。”
Cubic 更进一步,将差分信息保护与生成式人工智能相结合。首席执行官 Bae 解释说:“如果仅应用差分信息保护,数据性能只能达到 70-80%。为了解决这个问题,我们将差分信息保护与生成式人工智能相结合,并由此提出了一种名为‘安全合成数据’的新范式。” 安全合成数据是一项创新技术,它能够在增强安全性的同时保持数据质量。

■ 无需查看原始数据即可生成与原始数据完全相同的数据……数据非访问技术
正如复制博物馆藏品需要获取原件一样,创建合成数据也需要原始数据。然而,Cubic公司开发了一种“数据不可访问技术”,无需获取原始数据即可创建合成数据。
裴先生首席执行官解释说:“以前,出于数据安全考虑,原始数据必须共享。然而,企业和组织很难向外部各方提供敏感数据。我们利用数据非访问技术解决了这个根本问题。”
Cubic 的无数据技术无需查看原件即可制造假冒商品,其运作方式类似于“20 个问题”。客户只需描述所需数据的基本属性,Cubic 便会生成并传输预测数据集。客户随后选择合适的数据并重复此过程,从而进一步提高数据的准确性。
郑社长解释了数据访问技术,他说:“如果您说明第一列是性别,第二列是年龄,我们会生成并发送多组预期数据。客户从中选择合适的数据后,我们会根据所选数据创建一个新的数据集并发送给他们。我们通过与客户进行‘二十个问题’式的沟通来提高数据质量。”
Cubic 已为其数据非访问技术申请了专利,并通过与 Naver 的合作概念验证 (PoC) 证明了其优越性。首席执行官 Jeong 强调了 Cubic 数据非访问技术的优越性,他表示:“2024 年 5 月,微软发布了类似的算法。微软只能处理图像数据,而 Cubic 可以处理多种数据类型,包括文本、图像和表格。”
■ “DTS”和“azoo”:数据行业的新范式
Cubic 提供两大核心解决方案。第一大方案是 DTS,这是一款 B2B SaaS 工具,可帮助企业内部生成合成数据。DTS 于 2024 年 7 月推出,用于关联公司之间的数据共享以及保障人工智能训练的数据安全,并采用订阅模式。
第二个是“azoo”,这是一个于 2024 年 6 月推出的数据交易平台。虽然之前的数据法规要求单独购买数据,但 azoo 利用合成数据在一个地方实现各种数据的集成交易。
郑社长解释说:“目前,由于监管规定,数据必须从不同的来源购买。但是,合成数据不受监管,因此所有数据都可以在一个地方购买,就像网上商城一样。”
Azoo目前提供基础数据交易功能,并正在筹备数据聚合服务。此外,计划于2025年上半年推出集成分析功能。通过这些举措,Azoo旨在从一个简单的交易平台发展成为一个综合性的数据解决方案平台。

■ 我们正朝着进入全球市场和吸引海外投资的方向迈进。
Cubic目前正准备拓展全球市场,尤其着眼于以数据监管严格著称的欧洲市场。该公司目前正在筹建英国子公司,并寻求吸引海外投资。首席执行官郑先生表示:“欧洲拥有严格的数据监管法规,例如《通用数据保护条例》(GDPR),这使得我们的解决方案更加重要。我们目前正在筹建英国子公司,并计划之后拓展美国市场。”
他继续说道:“人工智能要安全,训练数据必须安全。Cubic 将为数据行业开辟新的范式。” 他补充道:“我们的目标是成为‘数据界的亚马逊’。正如亚马逊在一个平台上交易来自世界各地的商品一样,我们希望创建一个生态系统,让所有数据都能安全自由地交易。” 他表达了自己为数据行业开辟新天地的雄心壮志。
Cubic : « Nous allons ouvrir une nouvelle voie pour l'industrie coréenne de l'IA grâce aux données synthétiques. »
– Cibler le marché mondial grâce à une technologie propriétaire combinant protection différenciée de l'information et intelligence artificielle générative.
-Devenir l'une des quatre premières entreprises mondiales de données synthétiques.
Rêvant de devenir l'« Amazon » du monde des données
Les données sont comme le cerveau de l'IA. Tout comme les humains évoluent grâce à des expériences variées, l'IA développe un jugement sophistiqué grâce à l'abondance des données. Cependant, obtenir des données de haute qualité n'est pas chose aisée. La collecte des données brutes est complexe, et le prétraitement, notamment l'étiquetage, l'est tout autant. Le partage des données est restreint en raison du risque de fuites d'informations sensibles et personnelles, et une distribution déséquilibrée des données nuit aux performances analytiques.
Une entreprise a vu le jour pour répondre à ces enjeux liés aux données. CUBIG, société spécialisée en intelligence artificielle, est experte en sécurité des données et en génération de données synthétiques. CUBIG s'apprête à conquérir le marché mondial grâce à sa technologie propriétaire, qui combine protection différenciée de l'information et intelligence artificielle générative.
Le co-PDG de Cubic, Bae Ho, est actuellement professeur à l'Université féminine Ewha. Il est titulaire d'un master en sécurité de l'information de l'University College London et d'un doctorat en intelligence artificielle de l'Université nationale de Séoul. Il s'est fait connaître en publiant le premier article mondial établissant les principes de confidentialité et de sécurité dans le domaine de l'IA. Le co-PDG, Jeong Min-chan, détient de nombreux brevets en R&D et en IA et possède une solide expérience dans le développement d'applications de données d'IA. Le directeur technique, Ha Heon-seok, est un expert en IA qui étudie les données synthétiques depuis plus de dix ans.
Depuis sa création en 2021, Cubic a bénéficié d'un financement d'amorçage de Naver D2SF et VNTG en 2023, puis d'un tour de table de pré-série A de la Banque de développement de Corée et d'Intops Investment en 2024. La même année, Cubic a remporté le prix du ministre des Sciences et des TIC lors des Information Security Product Innovation Awards et a été sélectionnée pour la deuxième édition du programme d'accélération de startups en IA, organisé conjointement par SK Telecom et Hana Bank. Nous avons rencontré les PDG, Bae Ho et Jeong Min-chan, pour en savoir plus sur le parcours de Cubic, devenue la seule entreprise au monde spécialisée dans les données synthétiques sécurisées.
■ « Conquérir le marché mondial… L’IA est le moteur de croissance de la prochaine génération »

Le PDG Jeong Min-chan, que nous avons rencontré au Naver D2SF à Gangnam, a commencé par dire aux startups d’« explorer le marché étranger ».
« Dans le domaine de l'IA, nous ne devons pas nous laisser décourager par le défaitisme, hésiter à créer une entreprise ou craindre de nous développer à l'étranger. Même si nous n'obtenons pas de reconnaissance au niveau national, nous pouvons devenir une entreprise recherchée à l'international. »
Le PDG Jeong a comparé les entreprises d'IA à des « roues ». « Aussi performante soit-elle, une roue ne sert à rien sans une voiture de sport pour l'utiliser. En revanche, posséder une voiture de sport à l'étranger permet de créer des synergies », a-t-il déclaré, conseillant aux entreprises de trouver une « voiture de sport » adaptée à leurs « roues » sur le marché mondial.
Le PDG Jeong a également souligné le potentiel de croissance du secteur coréen de l'IA. « La Corée a besoin d'entreprises spécialisées en IA possédant des algorithmes propriétaires. L'IA deviendra le moteur de croissance de notre pays pour la prochaine génération », a-t-il déclaré. Il a insisté sur l'importance des données dans ce secteur, affirmant : « Les performances de l'IA varient en fonction des données d'entraînement. Même avec un même moteur, un entraînement avec des données de haute qualité permet d'obtenir des résultats nettement supérieurs. »
■ L'une des quatre seules entreprises de données synthétiques au monde
Les données synthétiques sont un type de données de substitution qui pallie les limitations des données originales. Contrairement aux données traditionnelles, elles sont faciles à obtenir, ne nécessitent aucun prétraitement et n'imposent aucune restriction quant à l'utilisation des informations sensibles. Elles réduisent le risque de fuites de données personnelles et permettent un partage libre des données. De plus, elles peuvent améliorer les performances analytiques même lorsque la distribution des données originales est inégale.
Le PDG Jeong a comparé les données synthétiques à une réplique dans un musée. « De même qu'un musée expose des répliques au lieu d'objets authentiques, les données synthétiques remplacent les données réelles sensibles. Ces dernières contiennent des informations sensibles telles que des données génétiques, financières, des secrets d'entreprise et des données personnelles, et sont donc soumises à une réglementation stricte. Le Royaume-Uni utilise un système d'autorisation préalable, les États-Unis un système de responsabilité rétroactive, et la Corée du Sud applique une réglementation encore plus stricte que l'Europe », a-t-il expliqué, justifiant ainsi la nécessité des données synthétiques. En d'autres termes, les données synthétiques peuvent être considérées comme des données artificielles qui remplacent les données réelles dont l'utilisation est restreinte par la réglementation.
À l'échelle mondiale, seules quatre entreprises, dont Cubic, possèdent une technologie de données synthétiques avancée qui remplace les informations personnelles tout en conservant les caractéristiques statistiques et la distribution des données réelles.
Combinaison de la protection différentielle de l'information et de l'IA générative… Renforcer la sécurité tout en préservant la qualité des données
Lors de la génération de données synthétiques, l'échelle et la sécurité des données sont cruciales. Par exemple, lors de la publication de statistiques démographiques pour une petite région, l'analyse de la population des « hommes octogénaires de la région OO » présente un risque d'identification des individus en raison du faible nombre de données. Pour pallier ce problème, une technologie de protection différenciée des informations est nécessaire.
La technologie de protection différentielle des données préserve les caractéristiques statistiques d'un ensemble de données tout en rendant les données individuelles non identifiables. Sélectionnée par le MIT parmi les 10 technologies les plus révolutionnaires de 2020, elle est aujourd'hui reconnue comme la méthode de sécurité des données la plus fiable. Son innovation réside dans l'impossibilité de restaurer les données originales. Contrairement à l'anonymisation ou au chiffrement classiques, les données protégées par la protection différentielle ne peuvent être ramenées à leur état initial. Ceci permet de concilier protection de la vie privée et utilisation des données.
Le PDG Bae a expliqué : « La technologie de protection différentielle des informations est une technologie de pointe en matière de sécurité des données, actuellement adoptée par des entreprises et institutions internationales telles qu’Apple et le Bureau du recensement des États-Unis. Son caractère novateur réside dans l’impossibilité de restaurer les données à leur état initial. Contrairement à l’anonymisation ou au chiffrement classiques, les données protégées par la protection différentielle des informations ne peuvent être ramenées à leur état d’origine. On atteint ainsi le double objectif de protéger les informations personnelles tout en permettant l’utilisation simultanée des données. »
Cubic est allé encore plus loin en combinant la protection différentielle des informations avec l'IA générative. Son PDG, M. Bae, explique : « Si la protection différentielle des informations est appliquée seule, les performances des données sont limitées à 70-80 %. Pour remédier à ce problème, nous avons combiné cette protection avec l'IA générative, et avons ainsi introduit un nouveau paradigme : les données synthétiques sécurisées. » Les données synthétiques sécurisées constituent une technologie innovante qui renforce la sécurité tout en préservant la qualité des données.

■ Génère des données identiques aux originales sans les consulter… Technologie de non-accès aux données
De même que la création d'une réplique d'une œuvre de musée nécessite l'accès à l'original, la création de données synthétiques requiert également des données originales. Or, Cubic a développé une « technologie d'inaccessibilité des données » qui permet de créer des données synthétiques sans avoir accès aux données originales.
Le PDG Bae a expliqué : « Auparavant, pour des raisons de sécurité des données, les données originales devaient être partagées. Or, les entreprises et les organisations ont du mal à fournir des données sensibles à des tiers. Nous avons résolu ce problème fondamental grâce à une technologie d’accès aux données non sécurisé. »
La technologie sans données de Cubic, qui permet de créer des contrefaçons sans avoir besoin de voir l'original, fonctionne selon une approche basée sur les « 20 questions ». Les clients décrivent simplement les propriétés de base des données souhaitées, et Cubic génère et transmet un ensemble de données prédictives. Les clients sélectionnent ensuite les données appropriées et répètent ce processus, améliorant ainsi la précision de leurs données.
Le PDG Jeong a expliqué la technologie d'accès aux données : « Si vous indiquez que la première colonne correspond au sexe et la seconde à l'âge, nous générons et envoyons plusieurs ensembles de données attendues. Une fois que le client a sélectionné les données pertinentes, nous créons un nouvel ensemble de données à partir de ces données et le lui envoyons. Nous améliorons la qualité des données en posant des questions au client. »
Cubic a breveté sa technologie d'accès aux données et a démontré sa supériorité grâce à une preuve de concept (PoC) réalisée avec Naver. Le PDG, M. Jeong, a souligné la supériorité de cette technologie, déclarant : « En mai 2024, Microsoft a annoncé un algorithme similaire. Alors que Microsoft ne pouvait traiter que des données d'image, Cubic est capable de traiter divers types de données, notamment du texte, des images et des tableaux. »
■ « DTS » et « azoo », un nouveau paradigme pour l'industrie des données
Cubic propose deux solutions principales. La première, DTS, est un outil SaaS B2B permettant aux entreprises de générer en interne des données synthétiques. Lancé en juillet 2024, DTS est utilisé pour le partage de données entre filiales et la sécurisation des données destinées à l'entraînement de l'IA ; son fonctionnement repose sur un modèle d'abonnement.
La seconde est « azoo », une plateforme de trading de données lancée en juin 2024. Alors que la réglementation des données exigeait auparavant des achats de données individuels, azoo exploite des données synthétiques pour permettre un trading intégré de données diverses en un seul endroit.
Le PDG Jeong a expliqué : « Actuellement, en raison de la réglementation, les données doivent être achetées auprès de différentes sources. Cependant, les données synthétiques ne sont pas soumises à cette réglementation ; il est donc possible d'acheter toutes les données au même endroit, un peu comme dans un centre commercial en ligne. »
Azoo propose actuellement des fonctionnalités de base pour le trading de données et prépare un service d'agrégation de données. Des fonctionnalités d'analyse intégrées sont également prévues pour le premier semestre 2025. Grâce à ces initiatives, Azoo ambitionne de devenir une plateforme de solutions de données complète, allant au-delà du simple trading.

■ Nous nous orientons vers une entrée sur le marché mondial et l'attraction d'investissements étrangers.
Cubic se prépare actuellement à conquérir le marché mondial, en ciblant particulièrement le marché européen, réputé pour sa réglementation stricte en matière de protection des données. L'entreprise est en train de créer une filiale au Royaume-Uni et cherche également à attirer des investissements étrangers. Le PDG, M. Jeong, a déclaré : « L'Europe applique une réglementation stricte en matière de protection des données, notamment le Règlement général sur la protection des données (RGPD), ce qui rend nos solutions encore plus indispensables. Nous préparons actuellement la création d'une filiale au Royaume-Uni et prévoyons de nous développer ensuite sur le marché américain. »
Il a poursuivi : « Pour que l’IA soit sûre, les données d’entraînement doivent l’être également. Cubic va inaugurer un nouveau paradigme pour le secteur des données. » Il a ajouté : « Notre ambition est de devenir l’Amazon des données. À l’instar d’Amazon qui commercialise des produits du monde entier sur une plateforme unique, nous voulons créer un écosystème où toutes les données pourront être échangées librement et en toute sécurité. » Il a ainsi exprimé son ambition d’ouvrir de nouvelles perspectives pour le secteur des données.
You must be logged in to post a comment.