Cubic : « Nous allons ouvrir une nouvelle voie pour l'industrie coréenne de l'IA grâce aux données synthétiques. »

– Cibler le marché mondial grâce à une technologie propriétaire combinant protection différenciée de l'information et intelligence artificielle générative.

-Devenir l'une des quatre premières entreprises mondiales de données synthétiques.

Rêvant de devenir l'« Amazon » du monde des données

Les données sont comme le cerveau de l'IA. Tout comme les humains évoluent grâce à des expériences variées, l'IA développe un jugement sophistiqué grâce à l'abondance des données. Cependant, obtenir des données de haute qualité n'est pas chose aisée. La collecte des données brutes est complexe, et le prétraitement, notamment l'étiquetage, l'est tout autant. Le partage des données est restreint en raison du risque de fuites d'informations sensibles et personnelles, et une distribution déséquilibrée des données nuit aux performances analytiques.

Une entreprise a vu le jour pour répondre à ces enjeux liés aux données. CUBIG, société spécialisée en intelligence artificielle, est experte en sécurité des données et en génération de données synthétiques. CUBIG s'apprête à conquérir le marché mondial grâce à sa technologie propriétaire, qui combine protection différenciée de l'information et intelligence artificielle générative.

Le co-PDG de Cubic, Bae Ho, est actuellement professeur à l'Université féminine Ewha. Il est titulaire d'un master en sécurité de l'information de l'University College London et d'un doctorat en intelligence artificielle de l'Université nationale de Séoul. Il s'est fait connaître en publiant le premier article mondial établissant les principes de confidentialité et de sécurité dans le domaine de l'IA. Le co-PDG, Jeong Min-chan, détient de nombreux brevets en R&D et en IA et possède une solide expérience dans le développement d'applications de données d'IA. Le directeur technique, Ha Heon-seok, est un expert en IA qui étudie les données synthétiques depuis plus de dix ans.

Depuis sa création en 2021, Cubic a bénéficié d'un financement d'amorçage de Naver D2SF et VNTG en 2023, puis d'un tour de table de pré-série A de la Banque de développement de Corée et d'Intops Investment en 2024. La même année, Cubic a remporté le prix du ministre des Sciences et des TIC lors des Information Security Product Innovation Awards et a été sélectionnée pour la deuxième édition du programme d'accélération de startups en IA, organisé conjointement par SK Telecom et Hana Bank. Nous avons rencontré les PDG, Bae Ho et Jeong Min-chan, pour en savoir plus sur le parcours de Cubic, devenue la seule entreprise au monde spécialisée dans les données synthétiques sécurisées.

■ « Conquérir le marché mondial… L’IA est le moteur de croissance de la prochaine génération »
Le PDG de Cubic, Bae Ho, et le PDG Jeong Min-chan (de gauche à droite)

Le PDG Jeong Min-chan, que nous avons rencontré au Naver D2SF à Gangnam, a commencé par dire aux startups d’« explorer le marché étranger ».

« Dans le domaine de l'IA, nous ne devons pas nous laisser décourager par le défaitisme, hésiter à créer une entreprise ou craindre de nous développer à l'étranger. Même si nous n'obtenons pas de reconnaissance au niveau national, nous pouvons devenir une entreprise recherchée à l'international. »

Le PDG Jeong a comparé les entreprises d'IA à des « roues ». « Aussi performante soit-elle, une roue ne sert à rien sans une voiture de sport pour l'utiliser. En revanche, posséder une voiture de sport à l'étranger permet de créer des synergies », a-t-il déclaré, conseillant aux entreprises de trouver une « voiture de sport » adaptée à leurs « roues » sur le marché mondial.

Le PDG Jeong a également souligné le potentiel de croissance du secteur coréen de l'IA. « La Corée a besoin d'entreprises spécialisées en IA possédant des algorithmes propriétaires. L'IA deviendra le moteur de croissance de notre pays pour la prochaine génération », a-t-il déclaré. Il a insisté sur l'importance des données dans ce secteur, affirmant : « Les performances de l'IA varient en fonction des données d'entraînement. Même avec un même moteur, un entraînement avec des données de haute qualité permet d'obtenir des résultats nettement supérieurs. »

■ L'une des quatre seules entreprises de données synthétiques au monde

Les données synthétiques sont un type de données de substitution qui pallie les limitations des données originales. Contrairement aux données traditionnelles, elles sont faciles à obtenir, ne nécessitent aucun prétraitement et n'imposent aucune restriction quant à l'utilisation des informations sensibles. Elles réduisent le risque de fuites de données personnelles et permettent un partage libre des données. De plus, elles peuvent améliorer les performances analytiques même lorsque la distribution des données originales est inégale.

Le PDG Jeong a comparé les données synthétiques à une réplique dans un musée. « De même qu'un musée expose des répliques au lieu d'objets authentiques, les données synthétiques remplacent les données réelles sensibles. Ces dernières contiennent des informations sensibles telles que des données génétiques, financières, des secrets d'entreprise et des données personnelles, et sont donc soumises à une réglementation stricte. Le Royaume-Uni utilise un système d'autorisation préalable, les États-Unis un système de responsabilité rétroactive, et la Corée du Sud applique une réglementation encore plus stricte que l'Europe », a-t-il expliqué, justifiant ainsi la nécessité des données synthétiques. En d'autres termes, les données synthétiques peuvent être considérées comme des données artificielles qui remplacent les données réelles dont l'utilisation est restreinte par la réglementation.

À l'échelle mondiale, seules quatre entreprises, dont Cubic, possèdent une technologie de données synthétiques avancée qui remplace les informations personnelles tout en conservant les caractéristiques statistiques et la distribution des données réelles.

Combinaison de la protection différentielle de l'information et de l'IA générative… Renforcer la sécurité tout en préservant la qualité des données

Lors de la génération de données synthétiques, l'échelle et la sécurité des données sont cruciales. Par exemple, lors de la publication de statistiques démographiques pour une petite région, l'analyse de la population des « hommes octogénaires de la région OO » présente un risque d'identification des individus en raison du faible nombre de données. Pour pallier ce problème, une technologie de protection différenciée des informations est nécessaire.

La technologie de protection différentielle des données préserve les caractéristiques statistiques d'un ensemble de données tout en rendant les données individuelles non identifiables. Sélectionnée par le MIT parmi les 10 technologies les plus révolutionnaires de 2020, elle est aujourd'hui reconnue comme la méthode de sécurité des données la plus fiable. Son innovation réside dans l'impossibilité de restaurer les données originales. Contrairement à l'anonymisation ou au chiffrement classiques, les données protégées par la protection différentielle ne peuvent être ramenées à leur état initial. Ceci permet de concilier protection de la vie privée et utilisation des données.

Le PDG Bae a expliqué : « La technologie de protection différentielle des informations est une technologie de pointe en matière de sécurité des données, actuellement adoptée par des entreprises et institutions internationales telles qu’Apple et le Bureau du recensement des États-Unis. Son caractère novateur réside dans l’impossibilité de restaurer les données à leur état initial. Contrairement à l’anonymisation ou au chiffrement classiques, les données protégées par la protection différentielle des informations ne peuvent être ramenées à leur état d’origine. On atteint ainsi le double objectif de protéger les informations personnelles tout en permettant l’utilisation simultanée des données. »

Cubic est allé encore plus loin en combinant la protection différentielle des informations avec l'IA générative. Son PDG, M. Bae, explique : « Si la protection différentielle des informations est appliquée seule, les performances des données sont limitées à 70-80 %. Pour remédier à ce problème, nous avons combiné cette protection avec l'IA générative, et avons ainsi introduit un nouveau paradigme : les données synthétiques sécurisées. » Les données synthétiques sécurisées constituent une technologie innovante qui renforce la sécurité tout en préservant la qualité des données.

Les PDG de Cubic, Bae Ho et Jeong Min-chan, expliquent la combinaison de la technologie de protection différenciée de l'information de Cubic et de l'IA générative.
■ Génère des données identiques aux originales sans les consulter… Technologie de non-accès aux données

De même que la création d'une réplique d'une œuvre de musée nécessite l'accès à l'original, la création de données synthétiques requiert également des données originales. Or, Cubic a développé une « technologie d'inaccessibilité des données » qui permet de créer des données synthétiques sans avoir accès aux données originales.

Le PDG Bae a expliqué : « Auparavant, pour des raisons de sécurité des données, les données originales devaient être partagées. Or, les entreprises et les organisations ont du mal à fournir des données sensibles à des tiers. Nous avons résolu ce problème fondamental grâce à une technologie d’accès aux données non sécurisé. »

La technologie sans données de Cubic, qui permet de créer des contrefaçons sans avoir besoin de voir l'original, fonctionne selon une approche basée sur les « 20 questions ». Les clients décrivent simplement les propriétés de base des données souhaitées, et Cubic génère et transmet un ensemble de données prédictives. Les clients sélectionnent ensuite les données appropriées et répètent ce processus, améliorant ainsi la précision de leurs données.

Le PDG Jeong a expliqué la technologie d'accès aux données : « Si vous indiquez que la première colonne correspond au sexe et la seconde à l'âge, nous générons et envoyons plusieurs ensembles de données attendues. Une fois que le client a sélectionné les données pertinentes, nous créons un nouvel ensemble de données à partir de ces données et le lui envoyons. Nous améliorons la qualité des données en posant des questions au client. »

Cubic a breveté sa technologie d'accès aux données et a démontré sa supériorité grâce à une preuve de concept (PoC) réalisée avec Naver. Le PDG, M. Jeong, a souligné la supériorité de cette technologie, déclarant : « En mai 2024, Microsoft a annoncé un algorithme similaire. Alors que Microsoft ne pouvait traiter que des données d'image, Cubic est capable de traiter divers types de données, notamment du texte, des images et des tableaux. »

■ « DTS » et « azoo », un nouveau paradigme pour l'industrie des données

Cubic propose deux solutions principales. La première, DTS, est un outil SaaS B2B permettant aux entreprises de générer en interne des données synthétiques. Lancé en juillet 2024, DTS est utilisé pour le partage de données entre filiales et la sécurisation des données destinées à l'entraînement de l'IA ; son fonctionnement repose sur un modèle d'abonnement.

La seconde est « azoo », une plateforme de trading de données lancée en juin 2024. Alors que la réglementation des données exigeait auparavant des achats de données individuels, azoo exploite des données synthétiques pour permettre un trading intégré de données diverses en un seul endroit.

Le PDG Jeong a expliqué : « Actuellement, en raison de la réglementation, les données doivent être achetées auprès de différentes sources. Cependant, les données synthétiques ne sont pas soumises à cette réglementation ; il est donc possible d'acheter toutes les données au même endroit, un peu comme dans un centre commercial en ligne. »

Azoo propose actuellement des fonctionnalités de base pour le trading de données et prépare un service d'agrégation de données. Des fonctionnalités d'analyse intégrées sont également prévues pour le premier semestre 2025. Grâce à ces initiatives, Azoo ambitionne de devenir une plateforme de solutions de données complète, allant au-delà du simple trading.

Les PDG de Cubic, Bae Ho et Jeong Min-chan, expliquent ce que sont « DTS » et « azoo ».
■ Nous nous orientons vers une entrée sur le marché mondial et l'attraction d'investissements étrangers.

Cubic se prépare actuellement à conquérir le marché mondial, en ciblant particulièrement le marché européen, réputé pour sa réglementation stricte en matière de protection des données. L'entreprise est en train de créer une filiale au Royaume-Uni et cherche également à attirer des investissements étrangers. Le PDG, M. Jeong, a déclaré : « L'Europe applique une réglementation stricte en matière de protection des données, notamment le Règlement général sur la protection des données (RGPD), ce qui rend nos solutions encore plus indispensables. Nous préparons actuellement la création d'une filiale au Royaume-Uni et prévoyons de nous développer ensuite sur le marché américain. »

Il a poursuivi : « Pour que l’IA soit sûre, les données d’entraînement doivent l’être également. Cubic va inaugurer un nouveau paradigme pour le secteur des données. » Il a ajouté : « Notre ambition est de devenir l’Amazon des données. À l’instar d’Amazon qui commercialise des produits du monde entier sur une plateforme unique, nous voulons créer un écosystème où toutes les données pourront être échangées librement et en toute sécurité. » Il a ainsi exprimé son ambition d’ouvrir de nouvelles perspectives pour le secteur des données.