-차등정보보호와 생성형 AI 결합한 독자 기술로 글로벌 시장 공략나서
-세계 4대 합성데이터 기업으로 성장
-데이터계의 ‘아마존’을 꿈꾸다
데이터는 AI의 두뇌와도 같다. 인간이 다양한 경험을 통해 성장하듯 AI도 풍부한 데이터를 통해 정교한 판단력을 갖추게 된다. 그러나 양질의 데이터를 확보하기가 쉽지 않다. 원본 데이터는 수집이 어렵고 라벨링 등 전처리 작업도 복잡하다. 민감정보와 개인정보 유출 위험이 있어 데이터 공유에 제약이 따르며, 불균형한 데이터 분포는 분석 성능을 떨어뜨린다.
이러한 데이터 문제를 해결하기 위해 등장한 기업이 있다. 데이터 보안과 합성데이터 생성에 특화된 AI 기업 큐빅(CUBIG)이다. 큐빅은 차등정보보호 기술과 생성형 AI를 결합한 독자적인 기술력으로 글로벌 시장 진출을 준비하고 있다.
큐빅을 이끄는 배호 공동대표는 현재 이화여대 교수로 재직 중이다. 런던대학교에서 정보보안 석사를, 서울대학교에서 AI로 박사학위를 받았으며, 세계 최초로 AI 분야의 프라이버시와 보안을 정립하는 논문을 발표해 주목받았다. 정민찬 공동대표는 다수의 R&D와 AI 관련 특허를 보유하고 있으며, AI 데이터 어플리케이션 개발 경력을 갖고 있다. 하헌석 CTO는 10년 이상 합성데이터를 연구해온 AI 전문가다.
2021년 법인 설립 후, 큐빅은 2023년에 네이버 D2SF와 VNTG로부터 시드 투자를, 2024년에는 산업은행, 인탑스인베스트먼트로부터 프리A 투자를 유치했다. 2024년에는 정보보호제품 혁신대상에서 과학기술정보통신부 장관상을 수상했으며, SK텔레콤과 하나은행이 공동 운영하는 ‘AI 스타트업 액셀러레이터 2기’에 선정되었다. 배호 대표와 정민찬 대표를 만나 큐빅은 이처럼 세계 유일의 보안 합성데이터 전문 회사로 자리매김하게 된 과정에 대해 이야기를 들어봤다.
■ “글로벌에 도전하라…AI는 차세대 성장동력”

강남 소재 네이버 D2SF에서 만난 정민찬 대표는 스타트업들에게 ‘해외 시장에서 부딪쳐보라’는 말부터 꺼냈다.
“AI 분야에서 패배주의에 빠져 창업을 망설이거나 해외 진출을 두려워하지 말아야 합니다. 국내에서 인정받지 못해도 해외에서는 필요로 하는 기업이 될 수 있습니다.”
정 대표는 AI 기업을 ‘바퀴’에 비유했다. “아무리 좋은 ‘바퀴’를 만들어도 이를 활용할 ‘스포츠카’가 없다면 가치가 없습니다. 하지만 해외에 ‘스포츠카’가 있다면, 그곳에서 시너지를 만들어낼 수 있습니다.”라고 말하면서 글로벌 시장에서 자사의 ‘바퀴’와 맞는 ‘스포츠카’를 찾으라고 조언했다.
정 대표는 한국 AI 산업의 성장 가능성도 강조했다. “한국에도 독자적인 알고리즘을 가진 AI 기업이 나와야 합니다. AI는 우리나라의 차세대 성장 동력이 될 것입니다”라고 말하면서 “AI의 성능 차이는 학습 데이터에서 비롯됩니다. 동일한 엔진이라도 양질의 데이터로 학습하면 훨씬 뛰어난 결과를 얻을 수 있습니다”라며 AI 산업에서의 데이터의 중요성을 역설했다.
■ 전 세계 4곳뿐인 합성데이터 전문 기업
합성데이터는 원본 데이터의 한계를 극복하는 일종의 대체재 같은 것이다. 기존 데이터와 달리 확보가 용이하고 전처리가 불필요하며, 민감 정보 활용에 제약이 없다. 개인정보 유출 위험이 낮고 데이터 공유도 자유롭다. 또한 원본 데이터의 분포가 불균형하더라도 분석 성능을 개선할 수 있다.
정 대표는 합성데이터를 박물관의 모조품에 비유했다. “박물관에서 진품 대신 모조품을 전시하듯 합성데이터는 민감한 실제 데이터를 대체합니다. 진짜 데이터에는 유전자 정보, 금융 정보, 기업 기밀, 개인 신상정보와 같은 민감 정보가 포함되어 있어 엄격한 규제를 받습니다. 영국은 사전 허가제를, 미국은 사후 책임제를 적용하며, 한국은 유럽보다 더 강력한 규제를 시행하고 있습니다”라고 합성데이터의 필요성에 대해 설명했다. 즉 합성데이터는 규제로 인해 활용이 제한된 실제 데이터를 대체하는 인공 데이터라고 할 수 있다.
실제 데이터의 통계적 특성과 분포는 유지하면서 개인정보만 대체하는 고도화된 합성데이터 기술을 보유한 기업은 전 세계적으로 큐빅을 포함해 단 4곳뿐이다.
■ 차등정보보호와 생성형 AI의 결합…데이터 품질 유지하면서도 보안성 강화
합성데이터를 생성할 때 중요한 것은 데이터의 규모와 안전성이다. 예를 들어 작은 지역의 인구통계를 발표한다고 했을 때, ‘OO지역의 80대 남성’ 인구를 분석한다면, 모수가 적어 개인을 특정할 위험이 있다. 이러한 문제를 해결하기 위해 차등정보보호 기술이 필요하다.
차등정보보호 기술은 데이터셋의 통계적 특성은 보존하면서 개별 데이터의 식별은 불가능하게 만든다. 차등정보보호 기술은 MIT가 선정한 2020년 10대 혁신기술 중 하나로 현재 가장 안전한 데이터 보안 방식으로 알려져 있다. 차등정보보호 기술의 혁신성은 원본 데이터로의 복원이 불가능하다는 점이다. 기존의 비식별화 처리나 암호화와 달리, 차등정보보호가 적용된 데이터는 원래 정보로 되돌릴 수 없다. 이는 개인정보 보호와 데이터 활용이라는 두 가지 목표를 동시에 달성할 수 있게 해준다.
배 대표는 “차등정보보호기술은 현재 애플, 미국 인구통계국(Census Bureau)과 같은 글로벌 기업과 기관에서 채택한 최신 데이터 보안 기술입니다. 이 기술의 혁신성은 원본 데이터로의 복원이 불가능하다는 점입니다. 기존의 비식별화 처리나 암호화와 달리, 차등정보보호가 적용된 데이터는 원래 정보로 되돌릴 수 없습니다. 이는 개인정보 보호와 데이터 활용이라는 두 가지 목표를 동시에 달성해줍니다.”라고 설명했다.
큐빅은 여기서 한 걸음 더 나아가 차등정보보호와 생성형 AI를 결합했다. 배 대표는 “차등정보보호만 적용하면 데이터 성능이 70-80% 수준으로 떨어지는 한계가 있습니다. 저희는 이 문제를 해결하기 위해 차등정보보호와 생성형 AI를 결합했고, 이를 통해 ‘보안합성데이터’라는 새로운 패러다임을 제시했습니다”라고 설명했다. 보안합성데이터는 데이터의 품질은 유지하면서도 보안성을 강화한 혁신적인 기술이다.

■ 원본 데이터를 보지 않고도 원본과 같은 데이터를 생성…데이터비접근 기술
박물관의 모조품을 만들려면 진품을 봐야 하듯이, 합성데이터 생성도 원본 데이터가 필요하다. 하지만 큐빅은 원본 데이터를 보지 않고도 합성데이터를 만드는 ‘데이터 비접근 기술’을 개발했다.
배 대표는 “기존에는 데이터 보안을 위해서라도 원본 데이터를 공유해야 했습니다. 하지만 기업이나 기관 입장에서는 민감한 데이터를 외부에 제공하기 어렵죠. 저희는 데이터 비접근 기술로 이 근본적인 문제를 해결했습니다”라고 설명했다.
진품을 보지 않고 모조품을 만들기 위한 큐빅의 데이터 비접근 기술은 ‘스무고개’ 방식으로 작동한다. 고객이 원하는 데이터의 기본 속성만 설명하면, 큐빅이 예상되는 데이터셋을 생성해 전송한다. 고객은 이 중에서 적합한 데이터를 선택하고, 이 과정을 반복하며 데이터의 정확도를 높인다.
정 대표는 “첫번째 칼럼은 성별, 두번째 칼럼은 연령이라고 설명해주면 예상되는 데이터를 여러 세트 생성해서 보냅니다. 고객이 이 중에서 적합한 데이터에서 선택하면, 선택된 데이터를 기반으로 다시 새로운 데이터셋을 만들어 보냅니다. 고객과 ‘스무고개’를 하면서 데이터의 품질을 높여갑니다”라고 데이터 비접근 기술을 설명했다.
큐빅은 데이터 비접근 기술로 특허를 취득했으며 네이버와의 PoC(Proof of Concept)를 통해 기술의 우수성을 입증했다. 정 대표는 “2024년 5월에는 마이크로소프트가 유사한 알고리즘을 발표했는데 마이크로소프트는 이미지 데이터만 처리할 수 있는 반면, 큐빅은 텍스트, 이미지, 테이블 등 다양한 형태의 데이터를 처리할 수 있습니다.”라고 큐빅의 데이터 비접근 기술의 우수성을 강조했다.
■ ‘DTS’와 ‘azoo’, 데이터 산업의 새로운 패러다임
큐빅은 두 가지 핵심 솔루션을 제공한다. 첫째는 B2B SaaS ‘DTS’로, 기업이 내부적으로 합성데이터를 생성할 수 있는 툴이다. 2024년 7월 출시된 DTS는 계열사 간 데이터 공유와 AI 학습용 데이터 확보에 활용되며, 구독 모델로 운영된다.
둘째는 2024년 6월 출시된 데이터 거래 플랫폼 ‘azoo’다. 데이터 규제로 인해 각종 데이터를 개별적으로 구매해야 했지만, azoo에서는 합성데이터를 활용해 다양한 데이터를 한 곳에서 통합 거래할 수 있다.
정 대표는 “현재 규제 때문에 데이터를 각각 다른 곳에서 사야 하는 상황입니다. 하지만 합성데이터는 규제 대상이 아니어서, 마치 온라인 쇼핑몰처럼 모든 데이터를 한 곳에서 구매할 수 있습니다.”라고 설명했다.
azoo는 현재 기본적인 데이터 거래 기능을 제공하고 있으며, 데이터 결합 서비스를 준비 중이다. 2025년 상반기에는 통합 분석 기능도 도입될 예정이다. 이를 통해 단순한 거래 플랫폼을 넘어 종합 데이터 솔루션 플랫폼으로 발전할 계획이다.

■ 글로벌 시장 진출과 해외 투자 유치에 나서
큐빅은 현재 글로벌 시장 진출을 준비 중이다. 특히 데이터 규제가 엄격한 유럽 시장을 우선 공략한다는 전략이다. 영국 법인 설립을 진행하고 있으며, 해외 투자 유치도 앞두고 있다. 정 대표는 “유럽은 GDPR(General Data Protection Regulation)과 같은 엄격한 데이터 규제가 있어 저희 솔루션의 필요성이 더 높습니다. 현재 영국 법인 설립을 준비 중이며, 이후 미국 시장도 진출할 계획입니다”라고 글로벌 진출 계획에 대해 말했다.
그러면서 “AI가 안전해지려면 학습 데이터가 안전해야 합니다. 큐빅이 데이터 산업의 새로운 패러다임을 열겠습니다”라며 말하면서 “저희는 ‘데이터계의 아마존’이 되고자 합니다. 아마존이 전 세계의 상품을 하나의 플랫폼에서 거래하듯, 저희도 모든 데이터를 안전하고 자유롭게 거래할 수 있는 생태계를 만들고 싶습니다”라며 데이터 산업의 새로운 지평을 열어가겠다는 포부를 밝혔다.
CUBIG, “We will open a new path for the Korean AI industry with synthetic data”
-Entering the global market with our own technology that combines differential information protection and generative AI
-Growing into one of the world's top 4 synthetic data companies
-Dreaming of the 'Amazon' of the data world
Data is like the brain of AI. Just as humans grow through various experiences, AI also acquires sophisticated judgment through abundant data. However, it is not easy to secure high-quality data. Original data is difficult to collect, and preprocessing such as labeling is also complicated. There is a risk of sensitive information and personal information leakage, so there are restrictions on data sharing, and unbalanced data distribution reduces analysis performance.
There is a company that has emerged to solve these data problems. It is CUBIG, an AI company specializing in data security and synthetic data generation. CUBIG is preparing to enter the global market with its own technology that combines differential information protection technology and generative AI.
CUBIG's co-CEO Bae Ho is currently a professor at Ewha Womans University. He received a master's degree in information security from the University of London and a doctorate in AI from Seoul National University, and was the first in the world to publish a paper establishing privacy and security in the AI field, drawing attention. Co-CEO Jeong Min Chan holds numerous R&D and AI-related patents and has experience developing AI data applications. CTO Ha Heon Seok is an AI expert who has been researching synthetic data for over 10 years.
Since its establishment in 2021, CUBIG has attracted seed investment from Naver D2SF and VNTG in 2023, and pre-A investment from Industrial Bank of Korea and Intops Investment in 2024. In 2024, it won the Minister of Science and ICT Award at the Information Protection Product Innovation Awards and was selected for the 2nd AI Startup Accelerator jointly operated by SK Telecom and Hana Bank. We met with CEO Bae Ho and CEO Jeong Min-chan to hear about CUBIG's story of establishing itself as the world's only specialized security synthetic data company.
■ “Challenge the Global Market… AI is the Next Generation Growth Engine”

CEO Jeong Min-chan, whom we met at Naver D2SF in Gangnam, started by telling startups to 'go and try out overseas markets.'
“In the AI field, you should not be defeated by the business, hesitate to start a business, or be afraid to go overseas. Even if you are not recognized domestically, you can become a company that is needed overseas.”
CEO Jeong likened AI companies to ‘wheels.’ “No matter how good a ‘wheel’ you make, it is worthless if there is no ‘sports car’ to utilize it. However, if there is a ‘sports car’ overseas, you can create synergy there,” he said, advising companies to find a ‘sports car’ that matches their ‘wheels’ in the global market.
CEO Jeong also emphasized the growth potential of the Korean AI industry. “Korea also needs to have an AI company with its own algorithm. AI will be our country’s next-generation growth engine,” he said. “The difference in AI performance comes from learning data. Even with the same engine, if you learn with high-quality data, you can get much better results,” he emphasized the importance of data in the AI industry.
■ Only 4 synthetic data specialized companies in the world
Synthetic data is a kind of substitute that overcomes the limitations of original data. Unlike existing data, it is easy to obtain, does not require preprocessing, and has no restrictions on the use of sensitive information. There is a low risk of personal information leakage and data sharing is free. In addition, even if the distribution of original data is unbalanced, analysis performance can be improved.
Representative Jeong likened synthetic data to a fake in a museum. “Just as a museum exhibits fakes instead of real items, synthetic data replaces sensitive real data. Real data contains sensitive information such as genetic information, financial information, corporate secrets, and personal information, and is subject to strict regulations. The UK uses a prior approval system, the US uses a post-existence liability system, and Korea has stronger regulations than Europe,” he explained the need for synthetic data. In other words, synthetic data can be said to be artificial data that replaces real data whose use is restricted due to regulations.
There are only four companies in the world, including CUBIG, that possess advanced synthetic data technology that replaces personal information while maintaining the statistical characteristics and distribution of actual data.
■ Combination of differential information protection and generative AI… Strengthening security while maintaining data quality
When creating synthetic data, the scale and safety of the data are important. For example, when announcing the population statistics of a small area, if you analyze the population of 'men in their 80s in OO area', there is a risk of identifying individuals due to the small number of parameters. Differential information protection technology is needed to solve this problem.
Differential information protection technology preserves the statistical characteristics of the dataset while making it impossible to identify individual data. Differential information protection technology is one of the 10 innovative technologies selected by MIT in 2020 and is currently known as the safest data security method. The innovation of differential information protection technology is that it cannot be restored to the original data. Unlike existing anonymization processing or encryption, data to which differential information protection is applied cannot be restored to the original information. This allows for the simultaneous achievement of two goals: personal information protection and data utilization.
“Differential information protection technology is the latest data security technology currently adopted by global companies and organizations such as Apple and the U.S. Census Bureau,” explained CEO Bae. “The innovation of this technology is that it cannot be restored to the original data. Unlike existing anonymization processing or encryption, data to which differential information protection has been applied cannot be restored to the original information. This achieves two goals at the same time: personal information protection and data utilization.”
CUBIG went one step further and combined differential information protection with generative AI. “If only differential information protection is applied, there is a limitation that data performance drops to 70-80%,” explained CEO Bae. “To solve this problem, we combined differential information protection with generative AI, and through this, we presented a new paradigm called ‘secure synthetic data.’” Secure synthetic data is an innovative technology that enhances security while maintaining data quality.

■ Generate data identical to the original without viewing the original data… Data non-access technology
Just as you need to see the original to create a replica in a museum, creating synthetic data also requires original data. However, CUBIG has developed a ‘data non-access technology’ that creates synthetic data without having to see the original data.
“Previously, original data had to be shared for data security purposes. However, it is difficult for companies or organizations to provide sensitive data to external parties. We have solved this fundamental problem with data non-access technology,” explained CEO Bae.
CUBIG's data-free technology for making counterfeit goods without seeing the real thing works in a '20 questions' manner. When the customer describes only the basic properties of the data they want, CUBIG generates and sends the expected data set. The customer selects the appropriate data from this and repeats this process to increase the accuracy of the data.
CEO Jeong explained the data non-access technology by saying, “If you explain that the first column is gender and the second column is age, we will create several sets of expected data and send them to you. When the customer selects the appropriate data among these, we will create a new data set based on the selected data and send it to you. We will improve the quality of the data by playing ‘Twenty Questions’ with the customer.”
CUBIG has obtained a patent for its data non-access technology and has proven the excellence of its technology through a PoC (Proof of Concept) with Naver. CEO Jeong emphasized the excellence of CUBIG's data non-access technology, saying, "In May 2024, Microsoft announced a similar algorithm, but while Microsoft can only process image data, CUBIG can process various types of data such as text, images, and tables."
■ 'DTS' and 'azoo', a new paradigm in the data industry
CUBIG offers two core solutions. The first is B2B SaaS 'DTS', a tool that allows companies to internally create synthetic data. Launched in July 2024, DTS is used to share data between affiliates and secure data for AI training, and is operated on a subscription model.
The second is the data trading platform 'azoo' launched in June 2024. Due to data regulations, each type of data had to be purchased individually, but with azoo, synthetic data can be used to integrate and trade various types of data in one place.
“Currently, due to regulations, data must be purchased from different places. However, synthetic data is not subject to regulations, so all data can be purchased from one place, just like an online shopping mall,” explained CEO Jeong.
Azoo currently offers basic data trading functions and is preparing a data combination service. In the first half of 2025, an integrated analysis function will also be introduced. Through this, it plans to evolve beyond a simple trading platform into a comprehensive data solution platform.

■ Entering the global market and attracting overseas investment
CUBIG is currently preparing to enter the global market. In particular, the strategy is to first target the European market, which has strict data regulations. It is in the process of establishing a UK corporation and is also planning to attract overseas investment. CEO Jeong said, “Europe has strict data regulations such as GDPR (General Data Protection Regulation), so the need for our solutions is greater. We are currently preparing to establish a UK corporation and plan to enter the US market afterward,” regarding the global expansion plan.
While saying, “For AI to be safe, training data must be safe. CUBIG will open a new paradigm for the data industry,” he said, “We want to become the ‘Amazon of the data world.’ Just as Amazon trades products from all over the world on a single platform, we want to create an ecosystem where all data can be traded safely and freely,” expressing his ambition to open a new horizon for the data industry.
キュービック、「合成データで韓国AI産業の新しい道を開く」
– 差分情報保護と生成型AIを組み合わせた独自技術でグローバル市場攻略後
-世界4大合成データ企業に成長
– データ系の「アマゾン」を夢見る
データはAIの脳と同じです。人間が多様な経験を通じて成長するように、AIも豊富なデータを通じて精巧な判断力を備えることになる。しかし、良質のデータを確保することは容易ではない。元のデータは収集が難しく、ラベリングなどの前処理作業も複雑です。機密情報と個人情報の漏洩リスクがあり、データ共有に制約があり、不均衡なデータ分布は分析性能を低下させる。
このようなデータ問題を解決するために登場した企業がある。データセキュリティと合成データ生成に特化したAI企業キュービック(CUBIG)だ。キュービックは差分情報保護技術と生成型AIを組み合わせた独自の技術力でグローバル市場進出を準備している。
キュービックを率いる配護共同代表は現在梨花女子大学教授として在職中だ。ロンドン大学で情報セキュリティの修士号を、ソウル大学でAIで博士号を取得し、世界で初めてAI分野のプライバシーとセキュリティを確立する論文を発表して注目された。チョン・ミンチャン共同代表は多数のR&DとAI関連特許を保有しており、AIデータアプリケーション開発の経歴を持っている。ハ・ホンソクCTOは10年以上合成データを研究してきたAI専門家だ。
2021年法人設立後、キュービックは2023年にネイバーD2SFとVNTGからシード投資を、2024年には産業銀行、イントップスインベストメントからフリーA投資を誘致した。 2024年には情報保護製品革新対象で科学技術情報通信部長官賞を受賞し、SKテレコムとハナ銀行が共同運営する「AIスタートアップアクセラレータ2期」に選ばれた。配護代表とチョン・ミンチャン代表に会ってキュービックはこのように世界唯一のセキュリティ合成データ専門会社として位置づけられるようになった過程について話を聞いた。
■「グローバルに挑戦せよ…AIは次世代成長動力」

江南(カンナム)のネイバーD2SFで出会ったチョン・ミンチャン代表はスタートアップに「海外市場でぶつかってみよう」という言葉から取り出した。
「AI分野で敗北主義に陥り、創業を躊躇したり、海外進出を恐れないでください。国内で認められなくても海外では必要とする企業になることができます。
チョン代表はAI企業を「ホイール」に例えた。 「いくら良い「ホイール」を作っても、それを活用する「スポーツカー」がなければ価値はありません。しかし、海外に「スポーツカー」があれば、そこで相乗効果を生み出すことができます。
チョン代表は韓国AI産業の成長可能性も強調した。 「韓国にも独自のアルゴリズムを持つAI企業が出なければなりません。 AIは我が国の次世代成長動力になるでしょう」と述べ、「AIの性能の違いは学習データに由来します。同じエンジンでも良質のデータで学習すれば、はるかに優れた結果が得られます」とAI産業におけるデータの重要性をパラドックスにした。
■ 世界4ヶ所だけの合成データ専門企業
合成データは、元のデータの限界を克服する一種の代替材料のようなものです。従来のデータとは異なり、確保が容易で前処理が不要で、機密情報の活用に制約がない。個人情報の漏洩リスクが低く、データ共有も自由だ。また、元データの分布が不均衡であっても分析性能を向上させることができる。
チョン代表は合成データを博物館の模造品に例えた。 「博物館で本物の代わりに模造品を展示するように、合成データは機密性の高い実際のデータを置き換えます。本物のデータには、遺伝子情報、金融情報、企業秘密、個人情報などの機密情報が含まれており、厳格な規制を受けています。英国は事前許可制を、米国は事後責任制を適用し、韓国はヨーロッパよりもより強力な規制を施行しています」と合成データの必要性について説明した。すなわち、合成データは、規制のために利用が制限された実際のデータを置き換える人工データといえる。
実際のデータの統計的特性と分布は維持しながら個人情報だけを置き換える高度化された合成データ技術を保有している企業は、世界的にキュービックを含めたわずか4カ所である。
■差分情報保護と生成型AIの結合…
合成データを作成する際に重要なのは、データの規模と安全性です。例えば、小さな地域の人口統計を発表するとしたとき、「OO地域の80代男性」人口を分析すると、パラメータが少なくて個人を特定する危険がある。この問題を解決するには、差分情報保護技術が必要です。
差分情報保護技術は、データセットの統計的特性を保存しながら、個々のデータの識別は不可能にする。差分情報保護技術は、MITが選定した2020年の10代革新技術の一つで、現在最も安全なデータセキュリティ方式として知られている。差分情報保護技術の革新性は、元のデータへの復元が不可能だという点だ。既存の非識別化処理や暗号化とは異なり、差分情報保護が適用されたデータは元の情報に戻すことができない。これにより、個人情報保護とデータ活用という2つの目標を同時に達成することができます。
船代表は「差別情報保護技術は現在、アップル、米国人口統計局(Census Bureau)などのグローバル企業や機関が採用した最新のデータセキュリティ技術です。この技術の革新性は、元のデータへの復元が不可能であることです。従来の非識別化処理や暗号化とは異なり、差分情報保護が適用されたデータは元の情報に戻すことはできません。これは、個人情報保護とデータ活用という2つの目標を同時に達成しています」と説明した。
キュービックはここでさらに一歩進んで、差分情報保護と生成型AIを結合した。船代表は「差分情報保護だけを適用すると、データ性能が70-80%水準に低下する限界があります。私たちは、この問題を解決するために差分情報保護と生成型AIを結合し、これを通じて「セキュリティ合成データ」という新しいパラダイムを提示しました」と説明した。セキュリティ合成データは、データの品質を維持しながらもセキュリティを強化した革新的な技術です。

■オリジナルデータを見なくてもオリジナルと同じデータを生成…
博物館の模造品を作るには本物を見なければならないように、合成データ生成も元のデータが必要だ。しかし、キュービックは元のデータを見なくても合成データを作る「データ非アクセス技術」を開発した。
船代表は「既存のデータセキュリティのためにも元のデータを共有する必要がありました。しかし、企業や機関の立場では、機密データを外部に提供するのは難しいです。私たちは、データ非アクセス技術でこの根本的な問題を解決しました」と説明した。
本物を見ずに模倣品を作るためのキュービックのデータ非アクセス技術は「二十頭」方式で動作する。顧客が所望のデータの基本属性のみを説明すると、キュービックが予想されるデータセットを生成して送信する。顧客はこれらの中から適切なデータを選択し、このプロセスを繰り返してデータの精度を高めます。
チョン代表は次のように述べています。顧客がこれらの中から適切なデータから選択すると、選択したデータに基づいて新しいデータセットを作成して送信します。顧客と「二十頭」をしながらデータの品質を高めていきます」とデータ非アクセス技術を説明した。
キュービックはデータ非アクセス技術で特許を取得し、ネイバーとのPoC(Proof of Concept)を通じて技術の卓越性を立証した。チョン代表は「2024年5月にはマイクロソフトが類似のアルゴリズムを発表したが、マイクロソフトはイメージデータのみ処理できるのに対し、キュービックはテキスト、イメージ、テーブルなど多様な形態のデータを処理できます」とキュービックのデータ非アクセス技術の卓越性を強調した。
■「DTS」と「azoo」、データ業界の新しいパラダイム
キュービックは2つのコアソリューションを提供します。まずはB2B SaaS 'DTS'で、企業が内部的に合成データを生成できるツールだ。 2024年7月に発売されたDTSは、系列会社間のデータ共有とAI学習用のデータ確保に活用され、購読モデルとして運営される。
第二は、2024年6月に発売されたデータ取引プラットフォーム「azoo」だ。データ規制により各種データを個別に購入しなければならなかったが、azooでは合成データを活用して多様なデータを一箇所で統合取引することができる。
チョン代表は次のように述べています。しかし、合成データは規制対象ではなく、まるでオンラインショッピングモールのようにすべてのデータを一箇所で購入することができます」と説明した。
azooは現在、基本的なデータ取引機能を提供しており、データ結合サービスを準備中です。 2025年上半期には統合分析機能も導入される予定だ。これにより、単純な取引プラットフォームを超えて総合データソリューションプラットフォームに発展する計画だ。

■グローバル市場への参入と海外投資の誘致に
キュービックは現在、グローバル市場への進出を準備している。特にデータ規制が厳しい欧州市場を優先攻略するという戦略だ。英国法人設立を進めており、海外投資誘致も控えている。チョン代表は、「ヨーロッパはGDPR(General Data Protection Regulation)のような厳しいデータ規制を持っており、私たちのソリューションの必要性が高まります。現在、イギリス法人設立を準備中であり、以後米国市場も進出する計画です」とグローバル進出計画について語った。
「AIが安全になるには、学習データが安全でなければなりません。キュービックがデータ産業の新しいパラダイムを開きます。アマゾンが世界中の商品を一つのプラットフォームで取引するように、私たちもすべてのデータを安全かつ自由に取引できるエコシステムを作りたいと思います。
CUBIG,“我们将通过合成数据为韩国人工智能行业开辟一条新道路”
– 以差异化信息保护与生成式人工智能相结合的专有技术瞄准全球市场
-成长为全球四大合成数据公司之一
-梦想成为数据世界的“亚马逊”
数据就像人工智能的大脑。正如人类通过不同的经历而成长一样,人工智能也通过丰富的数据发展出复杂的判断力。然而,确保高质量数据并不容易。原始数据采集困难,标注等预处理任务复杂。由于存在敏感信息和个人信息泄露的风险,数据共享受到限制,并且数据分布不平衡会降低分析性能。
有一家公司的出现就是为了解决这些数据问题。 CUBIG 是一家专注于数据安全和合成数据生成的人工智能公司。 CUBIG正准备以其结合差分信息保护技术和生成式人工智能的独特技术进军全球市场。
领导 CUBIG 的联合首席执行官 Bae Ho 目前担任梨花女子大学教授。他获得了伦敦大学信息安全硕士学位和首尔国立大学人工智能博士学位,并因发表世界上第一篇建立人工智能领域隐私和安全的论文而受到关注。联合首席执行官 Jeong Min-chan 拥有多项研发和人工智能相关专利,并拥有开发人工智能数据应用程序的经验。 CTO Ha Heon-seok 是一位人工智能专家,他研究合成数据已超过 10 年。
2021年成立公司后,CUBIG于2023年吸引了Naver D2SF和VNTG的种子投资,并于2024年吸引了韩国开发银行和Intops Investment的pre-A投资。 2024年,荣获信息安全产品创新奖科学技术信息通信部长官奖,并入选SK电讯与韩亚银行共同运营的“第二届人工智能创业加速器”。我们会见了首席执行官 Bae Ho 和首席执行官 Jeong Min-chan,了解了 CUBIG 成为世界上唯一一家专门从事安全合成数据的公司的过程。
■ “挑战全球…… “人工智能是下一代增长引擎”

我们在江南的 Naver D2SF 见到了首席执行官 Jeong Min-chan,他首先告诉初创公司“在海外市场试试运气”。
“在人工智能领域,不要因为失败主义而犹豫创业,也不要因为害怕海外扩张而犹豫不决。 “即使我们在国内不被认可,我们也可以成为海外需要的公司。”
CEO Jeong 将人工智能公司比作“轮子”。 “无论你造出多么好的‘轮子’,如果没有‘跑车’来使用它,它也是毫无价值的。 “但是,如果海外有‘跑车’,我们就可以在那里产生协同效应。”他建议我们在全球市场上寻找一款与我们的‘轮子’相匹配的‘跑车’。
郑代表还强调了韩国人工智能产业的增长潜力。 “韩国也必须出现拥有自己算法的人工智能公司。 “人工智能将成为我们国家的下一个增长引擎,”他说,“人工智能性能的差异来自于学习数据。 “即使使用相同的引擎,如果使用高质量的数据进行学习,也可以获得更好的结果”,他强调了数据在人工智能行业中的重要性。
■ 全球仅有 4 家公司专门从事合成数据
合成数据是克服原始数据局限性的一种替代品。与现有数据不同,它易于获取,不需要预处理,并且对敏感信息的使用没有限制。个人信息泄露风险低,数据共享免费。此外,即使原始数据分布不平衡,也可以提高分析性能。
郑代表将合成数据与博物馆中的复制品进行了比较。 “就像博物馆展示假冒物品而不是真品一样,合成数据取代了敏感的真实数据。真实数据包含遗传信息、财务信息、商业秘密、个人身份信息等敏感信息,受到严格监管。 “英国采用事前审批制度,美国采用事后问责制度,韩国的监管比欧洲更严格,”他解释了合成数据的必要性。换句话说,合成数据可以说是取代因法规而使用受到限制的真实数据的人工数据。
全球范围内只有四家公司(包括 CUBIG)拥有先进的合成数据技术,可以取代个人信息,同时保持实际数据的统计特征和分布。
■ 差异化信息保护与生成式人工智能的结合……加强安全性,同时保持数据质量
生成合成数据时重要的是数据的大小和安全性。例如,公布一个小地区的人口统计数据时,如果分析“OO地区80多岁男性”的人口,由于参数数量较少,存在识别个体的风险。为了解决这些问题,需要差分信息保护技术。
差异化信息保护技术保留了数据集的统计特征,同时使得个体数据无法被识别。差异化信息保护技术是麻省理工学院评选的2020年十大创新技术之一,目前被誉为最安全的数据安全方法。差分信息保护技术的创新之处在于无法恢复到原始数据。与现有的去标识化处理或加密不同,应用了差分信息保护的数据无法恢复到原始信息。这样可以同时实现保护个人信息和利用数据的两个目标。
Bae首席执行官表示:“差异化信息保护技术是目前苹果、美国人口普查局等全球公司和组织采用的最新数据安全技术。该技术的创新之处在于无法恢复原始数据。与现有的去标识化处理或加密不同,应用了差异信息保护的数据无法恢复到其原始信息。 “这同时实现了保护个人信息和利用数据的两个目标。”
CUBIG 更进一步,将差异化信息保护和生成式人工智能结合起来。 Bae首席执行官表示:“如果仅应用差异化信息保护,数据性能下降到70-80%是有极限的。 “为了解决这个问题,我们将差异化信息保护和生成式人工智能结合起来,通过这种方式,我们提出了一种称为‘安全合成数据’的新范式。”安全合成数据是一项创新技术,可以在保持数据质量的同时增强安全性。

■ 创建与原始数据相同的数据,而无需查看原始数据…数据非访问技术
正如创建博物馆复制品需要查看原始数据一样,创建合成数据也需要原始数据。然而,CUBIG 开发了“数据不可访问技术”,可以在不查看原始数据的情况下创建合成数据。
Bae首席执行官表示:“以前,为了数据安全,必须共享原始数据。然而,公司或组织很难向外部方提供敏感数据。 “我们通过数据不可访问技术解决了这个根本问题。”
CUBIG 的数据不可访问技术可以通过“20 个问题”方法在不查看原作的情况下制造假冒产品。如果客户简单地描述他们想要的数据的基本属性,CUBIG 将创建并传输预期的数据集。客户从其中选择合适的数据并重复此过程以提高数据的准确性。
CEO Jeong 表示:“如果您解释第一列是性别,第二列是年龄,我们将生成几组预期数据并发送给您。当客户从其中选择合适的数据时,将创建新的数据集并根据所选数据再次发送。 “我们通过与客户提出‘二十个问题’来提高数据质量,”他解释了数据不可访问技术。
CUBIG获得了数据非访问技术的专利,并通过与Naver的PoC(概念验证)证明了该技术的卓越性。 CEO Jeong 表示,“2024 年 5 月,微软宣布了类似的算法,虽然微软只能处理图像数据,但 CUBIG 可以处理文本、图像和表格等各种类型的数据。”强调了数据不可访问技术的卓越性。
■ “DTS”和“azoo”,数据行业的新范例
CUBIG 提供两个核心解决方案。第一个是 B2B SaaS“DTS”,这是一种允许公司在内部生成合成数据的工具。 DTS 于 2024 年 7 月推出,用于在附属公司之间共享数据并保护 AI 学习的数据,并在订阅模式下运行。
第二个是2024年6月推出的数据交易平台‘azoo’。由于数据规定,各种数据必须单独购买,但通过 azoo,可以使用合成数据将各种数据集成并在一个地方进行交易。
CEO Jeong 表示:“根据现行法规,我们面临着必须从不同来源购买数据的情况。然而,由于合成数据不受监管,所有数据都可以在一个地方购买,比如在线购物中心,”他解释道。
azoo目前提供基本的数据交易功能,并正在准备数据组合服务。综合分析功能也计划于 2025 年上半年推出。通过这一点,我们计划从一个简单的交易平台发展成为一个全面的数据解决方案平台。

■ 进军全球市场,吸引外资
CUBIG目前正在准备进军全球市场。特别是,该战略是首先瞄准数据监管严格的欧洲市场。我们正在建立一家英国公司,并计划吸引海外投资。 CEO Jeong表示:“欧洲有GDPR(通用数据保护条例)等严格的数据法规,因此对我们的解决方案的需求更高。 “我们目前正在准备成立一家英国公司,之后计划进入美国市场,”他在谈到全球扩张计划时表示。
他补充道:“为了让人工智能安全,训练数据必须安全。 CUBIG 将开启数据行业的新范式,”他说,“我们希望成为‘数据世界的亚马逊’。 “就像亚马逊在一个平台上交易来自世界各地的产品一样,我们希望创建一个所有数据都可以安全、自由交易的生态系统。”他表达了在数据行业开辟新视野的雄心。
CUBIG, "Nous ouvrirons une nouvelle voie pour l'industrie coréenne de l'IA avec des données synthétiques"
– Cibler le marché mondial avec une technologie propriétaire combinant protection différentielle des informations et IA générative
-Devient l’une des quatre plus grandes sociétés de données synthétiques au monde
-Rêver de devenir « l’Amazon » du monde des données
Les données sont comme le cerveau de l’IA. Tout comme les humains grandissent grâce à diverses expériences, l’IA développe également un jugement sophistiqué grâce à des données abondantes. Cependant, il n’est pas facile d’obtenir des données de qualité. Les données originales sont difficiles à collecter et les tâches de prétraitement telles que l'étiquetage sont compliquées. Il existe des restrictions sur le partage de données en raison du risque de fuite d'informations sensibles et personnelles, et une distribution déséquilibrée des données réduit les performances d'analyse.
Une entreprise a vu le jour pour résoudre ces problèmes de données. CUBIG est une société d'IA spécialisée dans la sécurité des données et la génération de données synthétiques. CUBIG se prépare à entrer sur le marché mondial avec sa technologie unique qui combine une technologie de protection différentielle des informations et une IA générative.
Le co-PDG Bae Ho, qui dirige CUBIG, est actuellement professeur à l'Université Ewha Womans. Il a obtenu une maîtrise en sécurité de l'information de l'Université de Londres et un doctorat en IA de l'Université nationale de Séoul, et a reçu l'attention pour la publication du premier article au monde établissant la confidentialité et la sécurité dans le domaine de l'IA. Le co-PDG Jeong Min-chan détient de nombreux brevets liés à la R&D et à l'IA et possède de l'expérience dans le développement d'applications de données d'IA. Le CTO Ha Heon-seok est un expert en IA qui recherche des données synthétiques depuis plus de 10 ans.
Après avoir créé la société en 2021, CUBIG a attiré des investissements d'amorçage de Naver D2SF et de VNTG en 2023, et des investissements pré-A de la Banque coréenne de développement et d'Intops Investment en 2024. En 2024, elle a remporté le prix du ministre des Sciences et des TIC lors des Information Security Product Innovation Awards et a été sélectionnée pour le « 2e accélérateur de startups IA » géré conjointement par SK Telecom et Hana Bank. Nous avons rencontré le PDG Bae Ho et le PDG Jeong Min-chan pour en savoir plus sur le processus par lequel CUBIG s'est imposée comme la seule entreprise au monde spécialisée dans les données synthétiques sécurisées.
■ « Défi mondial… « L’IA est le moteur de croissance de la prochaine génération »

Le PDG Jeong Min-chan, que nous avons rencontré chez Naver D2SF à Gangnam, a commencé par dire aux startups de « tenter leur chance sur les marchés étrangers ».
« Dans le domaine de l’IA, il ne faut pas hésiter à démarrer une entreprise par défaitisme ou avoir peur de s’étendre à l’étranger. « Même si nous ne sommes pas reconnus au niveau national, nous pouvons devenir une entreprise dont on a besoin à l’étranger. »
Le PDG Jeong a comparé les entreprises d’IA à des « roues ». « Peu importe la qualité d’une « roue » que vous fabriquez, elle ne vaut rien si vous n’avez pas de « voiture de sport » pour l’utiliser. "Cependant, s'il existe une "voiture de sport" à l'étranger, nous pouvons y créer une synergie", a-t-il déclaré, nous conseillant de trouver une "voiture de sport" qui corresponde à nos "roues" sur le marché mondial.
Le représentant Jeong a également souligné le potentiel de croissance de l'industrie coréenne de l'IA. « Une entreprise d’IA dotée de son propre algorithme doit également émerger en Corée. « L’IA deviendra le moteur de croissance de nouvelle génération de notre pays », a-t-il déclaré. « La différence dans les performances de l’IA vient de l’apprentissage des données. Même si le même moteur apprend avec des données de haute qualité, de bien meilleurs résultats peuvent être obtenus », a-t-il déclaré, soulignant l'importance des données dans l'industrie de l'IA.
■ Seulement 4 entreprises dans le monde spécialisées dans les données synthétiques
Les données synthétiques sont une sorte de substitut qui surmonte les limites des données originales. Contrairement aux données existantes, elles sont faciles à obtenir, ne nécessitent aucun prétraitement et ne comportent aucune restriction quant à l’utilisation d’informations sensibles. Le risque de fuite d’informations personnelles est faible et le partage de données est gratuit. De plus, les performances d'analyse peuvent être améliorées même si la distribution des données d'origine est déséquilibrée.
Le représentant Jeong a comparé des données synthétiques à des répliques dans un musée. « Tout comme un musée expose des objets contrefaits au lieu d’objets réels, les données synthétiques remplacent les données réelles et sensibles. Les données réelles contiennent des informations sensibles telles que des informations génétiques, des informations financières, des secrets d'affaires et des informations personnellement identifiables et sont soumises à une réglementation stricte. « Le Royaume-Uni applique un système d'approbation préalable, les États-Unis appliquent un système de post-responsabilité et la Corée a des réglementations plus strictes que l'Europe », a-t-il expliqué à propos de la nécessité de données synthétiques. En d’autres termes, les données synthétiques peuvent être considérées comme des données artificielles qui remplacent des données réelles dont l’utilisation est limitée en raison de la réglementation.
Seules quatre sociétés dans le monde, dont CUBIG, disposent d'une technologie avancée de données synthétiques qui remplace les informations personnelles tout en conservant les caractéristiques statistiques et la distribution des données réelles.
■ Combinaison de protection différentielle des informations et d'IA générative… Renforcer la sécurité tout en préservant la qualité des données
Ce qui est important lors de la génération de données synthétiques, c'est la taille et la sécurité des données. Par exemple, lors de l'annonce des statistiques démographiques d'une petite région, si l'on analyse la population des « hommes octogénaires de la région OO », il existe un risque d'identification d'individus en raison du petit nombre de paramètres. Pour résoudre ces problèmes, une technologie de protection différentielle des informations est nécessaire.
La technologie de protection différentielle des informations préserve les caractéristiques statistiques de l’ensemble de données tout en rendant impossible l’identification des données individuelles. La technologie de protection différentielle des informations fait partie du top 10 des technologies innovantes de 2020 sélectionnées par le MIT et est actuellement connue comme la méthode de sécurité des données la plus sûre. Le caractère innovant de la technologie de protection différentielle des informations réside dans le fait que la restauration des données originales est impossible. Contrairement au traitement de désidentification ou au cryptage existant, les données auxquelles une protection différentielle des informations a été appliquée ne peuvent pas être restituées aux informations d'origine. Cela permet d’atteindre simultanément les deux objectifs de protection des informations personnelles et d’utilisation des données.
Le PDG Bae a déclaré : « La technologie de protection différentielle des informations est la dernière technologie de sécurité des données actuellement adoptée par des entreprises et des organisations mondiales telles qu'Apple et le Bureau de recensement des États-Unis. Ce qui est innovant dans cette technologie, c'est que la restauration des données originales est impossible. Contrairement au traitement de désidentification ou au cryptage existant, les données auxquelles une protection différentielle des informations a été appliquée ne peuvent pas être restituées à leurs informations d'origine. "Cela permet d'atteindre les deux objectifs de protection des informations personnelles et d'utilisation des données en même temps."
CUBIG est allé encore plus loin et a combiné la protection différentielle des informations et l’IA générative. Le PDG Bae a déclaré : « Si seule une protection différentielle des informations est appliquée, il existe une limite où les performances des données chutent à 70-80 %. « Pour résoudre ce problème, nous avons combiné la protection différentielle des informations et l’IA générative, et grâce à cela nous avons présenté un nouveau paradigme appelé « données synthétiques sécurisées ». Les données synthétiques sécurisées sont une technologie innovante qui améliore la sécurité tout en préservant la qualité des données.

■ Créez des données identiques à l'original sans voir les données d'origine… Technologie sans accès aux données
Tout comme la création d’une réplique de musée nécessite de voir l’original, la création de données synthétiques nécessite des données originales. Cependant, CUBIG a développé une « technologie d’inaccessibilité des données » pour créer des données synthétiques sans voir les données originales.
Le PDG Bae a déclaré : « Auparavant, les données originales devaient être partagées pour des raisons de sécurité. Cependant, il est difficile pour les entreprises ou les organisations de fournir des données sensibles à des tiers. "Nous avons résolu ce problème fondamental grâce à la technologie d'inaccessibilité des données."
La technologie d'inaccessibilité des données de CUBIG pour créer des produits contrefaits sans examiner les œuvres originales selon la méthode « 20 questions ». Si le client décrit simplement les propriétés de base des données souhaitées, CUBIG crée et transmet l'ensemble de données attendu. Le client sélectionne les données appropriées parmi celles-ci et répète ce processus pour augmenter la précision des données.
Le PDG Jeong a déclaré : « Si vous expliquez que la première colonne est le sexe et la deuxième colonne l'âge, nous générerons plusieurs ensembles de données attendues et vous les enverrons. Lorsque le client sélectionne les données appropriées parmi celles-ci, un nouvel ensemble de données est créé et renvoyé à nouveau en fonction des données sélectionnées. « Nous améliorons la qualité des données en posant « vingt questions » aux clients », a-t-il expliqué à propos de la technologie d'inaccessibilité des données.
CUBIG a acquis un brevet pour la technologie sans accès aux données et a prouvé l'excellence de la technologie grâce à PoC (Proof of Concept) avec Naver. Le PDG Jeong a déclaré : « En mai 2024, Microsoft a annoncé un algorithme similaire, et bien que Microsoft ne puisse traiter que des données d'image, CUBIG peut traiter divers types de données telles que du texte, des images et des tableaux. » L'excellence de la technologie d'inaccessibilité des données a été soulignée.
■ « DTS » et « azoo », un nouveau paradigme dans l'industrie de la donnée
CUBIG propose deux solutions principales. Le premier est le B2B SaaS « DTS », un outil qui permet aux entreprises de générer des données synthétiques en interne. DTS, lancé en juillet 2024, est utilisé pour partager des données entre affiliés et sécuriser des données pour l'apprentissage de l'IA, et fonctionne selon un modèle d'abonnement.
La seconde est « azoo », une plateforme d’échange de données lancée en juin 2024. En raison de la réglementation sur les données, diverses données ont dû être achetées individuellement, mais azoo utilise des données synthétiques pour permettre l'échange intégré de diverses données en un seul endroit.
Le PDG Jeong a déclaré : « En raison de la réglementation actuelle, nous sommes dans une situation où nous devons acheter des données auprès de différentes sources. Cependant, comme les données synthétiques ne sont pas soumises à réglementation, toutes les données peuvent être achetées au même endroit, comme dans un centre commercial en ligne », a-t-il expliqué.
azoo fournit actuellement des fonctions de transaction de données de base et prépare un service de combinaison de données. Une fonction d’analyse intégrée devrait également être introduite au premier semestre 2025. Grâce à cela, nous prévoyons de développer au-delà d’une simple plateforme de trading vers une plateforme complète de solutions de données.

■ Entrer sur le marché mondial et attirer les investissements étrangers
CUBIG se prépare actuellement à entrer sur le marché mondial. La stratégie consiste notamment à cibler d’abord le marché européen, qui applique des réglementations strictes en matière de données. Nous sommes en train de créer une société britannique et prévoyons également d’attirer des investissements étrangers. Le PDG Jeong a déclaré : « L'Europe a des réglementations strictes en matière de données telles que le RGPD (Règlement général sur la protection des données), le besoin de notre solution est donc plus grand. "Nous nous préparons actuellement à créer une société au Royaume-Uni et nous envisageons ensuite d'entrer sur le marché américain", a-t-il déclaré à propos des projets d'expansion mondiale.
« Pour que l’IA soit sûre, les données d’entraînement doivent être sécurisées. CUBIG ouvrira un nouveau paradigme dans l’industrie des données », a-t-il déclaré. « Nous voulons devenir « l’Amazon du monde des données ». "Tout comme Amazon commercialise des produits du monde entier sur une seule plateforme, nous voulons créer un écosystème où toutes les données peuvent être échangées en toute sécurité et librement", a-t-il déclaré, exprimant son ambition d'ouvrir un nouvel horizon dans l'industrie des données.
You must be logged in to post a comment.