– 差分情報保護と生成型AIを組み合わせた独自技術でグローバル市場攻略後
-世界4大合成データ企業に成長
– データ系の「アマゾン」を夢見る
データはAIの脳と同じです。人間が多様な経験を通じて成長するように、AIも豊富なデータを通じて精巧な判断力を備えることになる。しかし、良質のデータを確保することは容易ではない。元のデータは収集が難しく、ラベリングなどの前処理作業も複雑です。機密情報と個人情報の漏洩リスクがあり、データ共有に制約があり、不均衡なデータ分布は分析性能を低下させる。
このようなデータ問題を解決するために登場した企業がある。データセキュリティと合成データ生成に特化したAI企業キュービック(CUBIG)だ。キュービックは差分情報保護技術と生成型AIを組み合わせた独自の技術力でグローバル市場進出を準備している。
キュービックを率いる配護共同代表は現在梨花女子大学教授として在職中だ。ロンドン大学で情報セキュリティの修士号を、ソウル大学でAIで博士号を取得し、世界で初めてAI分野のプライバシーとセキュリティを確立する論文を発表して注目された。チョン・ミンチャン共同代表は多数のR&DとAI関連特許を保有しており、AIデータアプリケーション開発の経歴を持っている。ハ・ホンソクCTOは10年以上合成データを研究してきたAI専門家だ。
2021年法人設立後、キュービックは2023年にネイバーD2SFとVNTGからシード投資を、2024年には産業銀行、イントップスインベストメントからフリーA投資を誘致した。 2024年には情報保護製品革新対象で科学技術情報通信部長官賞を受賞し、SKテレコムとハナ銀行が共同運営する「AIスタートアップアクセラレータ2期」に選ばれた。配護代表とチョン・ミンチャン代表に会ってキュービックはこのように世界唯一のセキュリティ合成データ専門会社として位置づけられるようになった過程について話を聞いた。
■「グローバルに挑戦せよ…AIは次世代成長動力」

江南(カンナム)のネイバーD2SFで出会ったチョン・ミンチャン代表はスタートアップに「海外市場でぶつかってみよう」という言葉から取り出した。
「AI分野で敗北主義に陥り、創業を躊躇したり、海外進出を恐れないでください。国内で認められなくても海外では必要とする企業になることができます。
チョン代表はAI企業を「ホイール」に例えた。 「いくら良い「ホイール」を作っても、それを活用する「スポーツカー」がなければ価値はありません。しかし、海外に「スポーツカー」があれば、そこで相乗効果を生み出すことができます。
チョン代表は韓国AI産業の成長可能性も強調した。 「韓国にも独自のアルゴリズムを持つAI企業が出なければなりません。 AIは我が国の次世代成長動力になるでしょう」と述べ、「AIの性能の違いは学習データに由来します。同じエンジンでも良質のデータで学習すれば、はるかに優れた結果が得られます」とAI産業におけるデータの重要性をパラドックスにした。
■ 世界4ヶ所だけの合成データ専門企業
合成データは、元のデータの限界を克服する一種の代替材料のようなものです。従来のデータとは異なり、確保が容易で前処理が不要で、機密情報の活用に制約がない。個人情報の漏洩リスクが低く、データ共有も自由だ。また、元データの分布が不均衡であっても分析性能を向上させることができる。
チョン代表は合成データを博物館の模造品に例えた。 「博物館で本物の代わりに模造品を展示するように、合成データは機密性の高い実際のデータを置き換えます。本物のデータには、遺伝子情報、金融情報、企業秘密、個人情報などの機密情報が含まれており、厳格な規制を受けています。英国は事前許可制を、米国は事後責任制を適用し、韓国はヨーロッパよりもより強力な規制を施行しています」と合成データの必要性について説明した。すなわち、合成データは、規制のために利用が制限された実際のデータを置き換える人工データといえる。
実際のデータの統計的特性と分布は維持しながら個人情報だけを置き換える高度化された合成データ技術を保有している企業は、世界的にキュービックを含めたわずか4カ所である。
■差分情報保護と生成型AIの結合…
合成データを作成する際に重要なのは、データの規模と安全性です。例えば、小さな地域の人口統計を発表するとしたとき、「OO地域の80代男性」人口を分析すると、パラメータが少なくて個人を特定する危険がある。この問題を解決するには、差分情報保護技術が必要です。
差分情報保護技術は、データセットの統計的特性を保存しながら、個々のデータの識別は不可能にする。差分情報保護技術は、MITが選定した2020年の10代革新技術の一つで、現在最も安全なデータセキュリティ方式として知られている。差分情報保護技術の革新性は、元のデータへの復元が不可能だという点だ。既存の非識別化処理や暗号化とは異なり、差分情報保護が適用されたデータは元の情報に戻すことができない。これにより、個人情報保護とデータ活用という2つの目標を同時に達成することができます。
船代表は「差別情報保護技術は現在、アップル、米国人口統計局(Census Bureau)などのグローバル企業や機関が採用した最新のデータセキュリティ技術です。この技術の革新性は、元のデータへの復元が不可能であることです。従来の非識別化処理や暗号化とは異なり、差分情報保護が適用されたデータは元の情報に戻すことはできません。これは、個人情報保護とデータ活用という2つの目標を同時に達成しています」と説明した。
キュービックはここでさらに一歩進んで、差分情報保護と生成型AIを結合した。船代表は「差分情報保護だけを適用すると、データ性能が70-80%水準に低下する限界があります。私たちは、この問題を解決するために差分情報保護と生成型AIを結合し、これを通じて「セキュリティ合成データ」という新しいパラダイムを提示しました」と説明した。セキュリティ合成データは、データの品質を維持しながらもセキュリティを強化した革新的な技術です。

■オリジナルデータを見なくてもオリジナルと同じデータを生成…
博物館の模造品を作るには本物を見なければならないように、合成データ生成も元のデータが必要だ。しかし、キュービックは元のデータを見なくても合成データを作る「データ非アクセス技術」を開発した。
船代表は「既存のデータセキュリティのためにも元のデータを共有する必要がありました。しかし、企業や機関の立場では、機密データを外部に提供するのは難しいです。私たちは、データ非アクセス技術でこの根本的な問題を解決しました」と説明した。
本物を見ずに模倣品を作るためのキュービックのデータ非アクセス技術は「二十頭」方式で動作する。顧客が所望のデータの基本属性のみを説明すると、キュービックが予想されるデータセットを生成して送信する。顧客はこれらの中から適切なデータを選択し、このプロセスを繰り返してデータの精度を高めます。
チョン代表は次のように述べています。顧客がこれらの中から適切なデータから選択すると、選択したデータに基づいて新しいデータセットを作成して送信します。顧客と「二十頭」をしながらデータの品質を高めていきます」とデータ非アクセス技術を説明した。
キュービックはデータ非アクセス技術で特許を取得し、ネイバーとのPoC(Proof of Concept)を通じて技術の卓越性を立証した。チョン代表は「2024年5月にはマイクロソフトが類似のアルゴリズムを発表したが、マイクロソフトはイメージデータのみ処理できるのに対し、キュービックはテキスト、イメージ、テーブルなど多様な形態のデータを処理できます」とキュービックのデータ非アクセス技術の卓越性を強調した。
■「DTS」と「azoo」、データ業界の新しいパラダイム
キュービックは2つのコアソリューションを提供します。まずはB2B SaaS 'DTS'で、企業が内部的に合成データを生成できるツールだ。 2024年7月に発売されたDTSは、系列会社間のデータ共有とAI学習用のデータ確保に活用され、購読モデルとして運営される。
第二は、2024年6月に発売されたデータ取引プラットフォーム「azoo」だ。データ規制により各種データを個別に購入しなければならなかったが、azooでは合成データを活用して多様なデータを一箇所で統合取引することができる。
チョン代表は次のように述べています。しかし、合成データは規制対象ではなく、まるでオンラインショッピングモールのようにすべてのデータを一箇所で購入することができます」と説明した。
azooは現在、基本的なデータ取引機能を提供しており、データ結合サービスを準備中です。 2025年上半期には統合分析機能も導入される予定だ。これにより、単純な取引プラットフォームを超えて総合データソリューションプラットフォームに発展する計画だ。

■グローバル市場への参入と海外投資の誘致に
キュービックは現在、グローバル市場への進出を準備している。特にデータ規制が厳しい欧州市場を優先攻略するという戦略だ。英国法人設立を進めており、海外投資誘致も控えている。チョン代表は、「ヨーロッパはGDPR(General Data Protection Regulation)のような厳しいデータ規制を持っており、私たちのソリューションの必要性が高まります。現在、イギリス法人設立を準備中であり、以後米国市場も進出する計画です」とグローバル進出計画について語った。
「AIが安全になるには、学習データが安全でなければなりません。キュービックがデータ産業の新しいパラダイムを開きます。アマゾンが世界中の商品を一つのプラットフォームで取引するように、私たちもすべてのデータを安全かつ自由に取引できるエコシステムを作りたいと思います。
You must be logged in to post a comment.