S2W étend sa technologie d'analyse de données accumulées sur le dark web pour mettre en œuvre l'IA industrielle

– Appliquer les capacités accumulées sur le dark web à l'industrie… Lancement de la solution d'IA industrielle « SAIP » l'année dernière

– Mettre en œuvre une IA spécifique à un domaine, de la sécurité à la fabrication et à la finance, grâce à une analyse croisée multi-domaines

– Développer une technologie pour soutenir la prise de décision grâce à l'IA des agents au-delà des simples questions-réponses

S2W (ci-après dénommée S2W), qui a débuté en tant que société spécialisée dans le dark web, étend son domaine d'activité en lançant l'année dernière une plate-forme d'IA générative industrielle appelée « SAIP (S2W AI Platform) ».

Le dark web est un réseau chiffré inaccessible via un navigateur internet classique. C'est un lieu où se produisent fréquemment diverses cybercriminalités, telles que le trafic de drogue, le piratage informatique et les rançongiciels. Par conséquent, les données présentes sur le dark web sont complexes, contrairement aux données du web classique. Elles doivent être consultées via un navigateur spécifique. La structure du réseau est également très instable, et un langage complexe est utilisé intentionnellement pour éviter le suivi. Le taux de bruit des données est également très élevé. Il est difficile de découvrir les relations cachées entre les données, et les informations changent et disparaissent très rapidement.

Fort de ces caractéristiques, S2W a développé des solutions spécialisées pour le dark web, appelées « Jarvis » et « Quasar », dans la zone du dark web difficile d'accès pour la plupart des entreprises. S2W a développé une technologie d'analyse croisée multi-domaines pour collecter les données non structurées, vastes et complexes, du dark web, en extraire la signification et en suivre les relations.

La technologie d'analyse croisée multi-domaines intègre et analyse des données provenant de différents domaines et permet d'en dégager des tendances ou des informations difficiles à identifier dans un seul domaine. Par exemple, dans le domaine de la cybersécurité, les données de trafic réseau, de comportement des utilisateurs et de journal système peuvent être analysées de manière croisée pour identifier les menaces avancées difficiles à détecter avec une source unique. Dans le domaine financier, les données de transaction, de comportement des clients et de marché externe peuvent être combinées pour permettre une évaluation des risques ou une détection des fraudes plus précise. Cette technologie utilise l'IA et des techniques d'analyse du Big Data pour identifier les corrélations entre les domaines et offre des résultats d'analyse bien plus précis et exhaustifs que l'analyse par domaine individuel.

Application des capacités techniques accumulées sur le dark web aux industries générales, lancement de SAIP (S2W AI Platform)

La solution développée pour permettre aux entreprises d'exploiter la technologie accumulée sur le dark web est « SAIP (S2W AI Platform) ». SAIP est une plateforme d'IA générative industrielle lancée en février 2024. Elle permet d'utiliser toutes les données d'une entreprise de manière conversationnelle, à l'instar de ChatGPT, tout en améliorant considérablement la sécurité et la précision.

La principale caractéristique de SAIP est son système de sécurité appelé « Security Guardrail ». Alors que ChatGPT ou d'autres IA peuvent parfois fournir des informations erronées ou risquer de divulguer des informations sensibles, SAIP protège les données de l'entreprise en toute sécurité et ne fournit que des réponses exactes. De plus, les informations accessibles peuvent être différenciées et définies en fonction du poste, de sorte que seules les personnes autorisées peuvent consulter les informations sensibles, telles que les données personnelles. De plus, contrairement à d'autres entreprises d'IA proposant des solutions générales, SAIP comprend parfaitement le domaine d'activité de chaque entreprise et propose des solutions sur mesure.

Le parcours de S2W, depuis ses débuts dans l’environnement le plus difficile connu sous le nom de dark web jusqu’à sa croissance actuelle en tant qu’entreprise d’IA qui gère l’analyse de données dans tous les secteurs, est un excellent exemple d’innovation où les technologies spécialisées se transforment en technologies à usage général.

Nous avons rencontré Park Geun-tae, directeur technique, et Jeong Jin-woo, directeur de l'IA, au siège de S2W à Pangyo, Seongnam-si, Gyeonggi-do. Park Geun-tae, directeur technique, a obtenu son doctorat au KAIST et a travaillé sur le développement de systèmes distribués à l'Institut de recherche en électronique et télécommunications (ETRI) et sur le développement de systèmes d'exploitation chez TmaxSoft. Il a ensuite travaillé sur le Big Data et l'IA chez SK Telecom pendant 12 ans. Il a rejoint S2W en 2022 car il souhaitait mettre en œuvre la recherche sur le Big Data et l'IA dans une startup plutôt que dans une grande entreprise.

Jinwoo Jeong, directeur général d'AI, s'est spécialisé en traitement automatique du langage naturel (TALN) lors de ses études de master et de doctorat au KAIST. Il a également étudié la traduction automatique mobile et l'extraction d'informations issues d'articles en science des matériaux au Samsung Advanced Institute of Technology. Particulièrement intéressé par le traitement des données, Jinwoo Jeong a rejoint l'entreprise en 2020 après s'être intéressé au traitement des informations sur le dark web grâce au traitement automatique du langage naturel.

Park Geun-tae, directeur technique et responsable de la technologie chez S2W, et Jeong Jin-woo, directeur de l'IA, nous ont présenté les trois technologies clés, notamment la technologie permettant de collecter les données souhaitées à partir de données massives, un modèle de langage personnalisé pour chaque domaine et un graphe de connaissances reliant les relations. Ils nous ont également expliqué pourquoi la plateforme d'IA générative industrielle « SAIP (S2W AI Platform) » basée sur ces technologies suscite autant d'intérêt. (Le contenu était organisé sous forme de questions-réponses afin de présenter avec précision les technologies professionnelles.)

Q. S2W a commencé par la sécurité. Je pense qu'il y a des avantages et des différences.

Park Geun-tae, directeur technique : S2W peut être définie comme une entreprise « sécurité et données ». À l'ère de l'IA, des données d'une nature totalement différente alimentent les systèmes d'IA. En particulier, alors que des données sensibles, étroitement liées aux informations personnelles, sont utilisées en grande quantité pour l'apprentissage de l'IA et le fonctionnement des services, l'importance et la sécurité des données sont devenues plus cruciales que jamais.

Park Geun-tae, directeur technique de S2W

Pour réussir la mise en œuvre de services d'IA, le rôle des experts en sécurité est essentiel et, par conséquent, une compréhension approfondie de la sécurité est requise. La sécurité devient particulièrement importante lors de la combinaison et de l'exploitation de données externes et internes. Dans le secteur financier, de grandes quantités de données sensibles doivent être traitées dans un environnement réglementaire strict. Il est donc essentiel d'identifier précisément les exigences de sécurité lors du développement de services d'IA et de les intégrer dès la conception.

On peut dire que la compétitivité principale de S2W réside dans le fait qu’elle est partie d’une base basée sur la sécurité.

Q. La technologie d'analyse croisée multidomaine intègre et analyse des données provenant de différents domaines, permettant ainsi d'identifier des tendances ou des informations difficiles à identifier dans un seul domaine. S2W a appliqué cette technologie à JARVIS et QUXAR, des solutions spécialisées pour le dark web, et l'a développée et appliquée à SAIP en s'appuyant sur son savoir-faire. Veuillez expliquer ce qu'est la technologie d'analyse croisée multidomaine.

Park Geun-tae, directeur technique : Toute entreprise ou organisation est confrontée à des problèmes fondamentaux. Pour développer l'entreprise ou éviter les risques, les meilleurs experts se réunissent, collectent toutes les informations disponibles, puis chacun présente son avis et discute du problème pour le résoudre. La technologie qui permet à l'IA d'effectuer ce processus est l'analyse croisée multi-domaines.

Jeong Jin-woo, directeur général de l'IA : Il s'agit plus précisément d'une combinaison de trois technologies : la première est la collecte de données, la deuxième est la modélisation linguistique spécifique à un domaine, et la troisième est la technologie des graphes de connaissances basés sur des ontologies.

S2W Jinwoo Jeong, directeur général de l'IA

Q. Vous avez mentionné qu'il existe trois technologies pour l'analyse croisée multi-domaines, mais que parmi elles, la technologie de collecte de données semble être la plus importante. Comment les solutions S2W collectent-elles les données ?

Park Geun-tae, directeur technique : S2W gère non seulement les données internes, mais aussi toutes les données externes. Les types de données sont également variés. Nous collectons tous types de données, y compris des fichiers Excel, des photos, des données web et des données juridiques d'organismes publics. S2W peut collecter des données de manière fiable et efficace sur le dark web ou dans des environnements de combat où les changements de réseau sont importants ou où des informations apparaissent et disparaissent temporairement.

Jung Jin-woo, directeur général de l'IA : Le plus important est la technologie de l'aiguille dans une botte de foin. Sur le web, chercher des données intéressantes revient à chercher une aiguille dans une botte de foin. Il est extrêmement coûteux de tout collecter ; c'est pourquoi nous utilisons des modèles linguistiques dès la collecte. Par exemple, plus de la moitié des données du dark web sont de la pornographie. Si nous déterminons qu'il s'agit de pornographie avec une probabilité de 99,9 %, nous les supprimons immédiatement. En revanche, si la probabilité est de 50 %, nous les conservons temporairement et les reclassons à l'aide d'un modèle linguistique plus sophistiqué.

Actuellement, S2W identifie environ 10 millions de pages web par mois. Comme nous ne pouvons pas toutes les stocker sur nos serveurs, nous appliquons des modèles linguistiques étape par étape pour sélectionner uniquement les données nécessaires.

Q. Vous avez dit que des modèles de langage spécifiques à un domaine sont nécessaires pour collecter les données nécessaires. Comment peut-on créer et appliquer des modèles de langage spécifiques à un domaine aussi rapidement ?

Jeong Jin-woo, directeur général de l'IA : Si un modèle de langage est appliqué à un autre domaine, ses performances se dégradent. Un modèle de détection de pornographie est inutilisable dans le secteur financier. C'est pourquoi la spécialisation du domaine est nécessaire, et elle est particulièrement importante lorsque la taille du modèle est réduite. Les grands modèles de langage comme ChatGPT affichent d'excellentes performances en eux-mêmes, mais avec un volume de données important, un modèle volumineux est impossible. Pour une classification en temps réel, il faut un petit modèle, et pour cela, un modèle hautement spécialisé pour le domaine.

Park Geun-tae, directeur technique : Lorsque nous recevons des données clients, nous pouvons très rapidement déterminer quelles données doivent être intégrées à un modèle linguistique d'une certaine échelle pour le faire fonctionner. Nous pouvons ainsi construire un modèle linguistique à l'échelle optimale plus rapidement que nos concurrents et mener le projet à bien dans les meilleurs délais.

Q. Je pense qu'il est nécessaire de connaître le domaine pour créer un modèle spécifique. Que comprenez-vous du domaine ?

Jung Jin-woo, Directeur général de l'IA : Pour développer un modèle linguistique pour le baseball, il est essentiel de connaître ce sport. C'est pourquoi S2W mène de nombreuses actions de conseil auprès de ses clients dès les premières étapes. Beaucoup d'entreprises négligent ce point, tandis que d'autres affirment généralement : « Notre modèle est tout ce dont vous avez besoin. » Je pense que c'est impossible. Si S2W a obtenu des résultats, c'est grâce à sa grande expérience du dark web. Nous échangeons avec des experts du domaine et extrayons les catégories et les caractéristiques très rapidement et avec précision.

Park Geun-tae, directeur technique : Nous avons mené à bien le projet de grande envergure de la société H en seulement cinq mois. Nous avons consacré environ un mois de conseil aux premières étapes. À ce stade, le rôle des experts du domaine est crucial.

Q. Enfin, veuillez expliquer la technologie des graphes de connaissances et comment l’utiliser.

Jung Jin-woo, directeur général de l'IA : Un graphe de connaissances est composé de nœuds (points) et d'arêtes (lignes). Il est constitué de plusieurs cercles, reliés par des lignes pour illustrer les relations. L'étape finale de la structuration consiste à représenter les données collectées sous forme de graphe. Pour bien comprendre les relations, il est nécessaire de créer un graphe.

S2W a commencé à utiliser la technologie des graphes de connaissances pour traquer les crimes sur le dark web. En effet, les informations relationnelles sont essentielles à ce suivi. Par exemple, imaginons qu'un pirate informatique ait volé des informations d'entreprise sur le dark web et publié « Données OO à vendre à ce prix. Discutons sur Telegram ». S2W extrait l'identifiant Telegram comme élément clé de la publication, recherche les cas où ce même identifiant a été utilisé sur d'autres sites ou plateformes du dark web et relie les deux. Si le criminel a également laissé une adresse Bitcoin, il la définit comme un autre nœud et la connecte à l'identifiant Telegram. Il suit également l'historique des transferts de cette adresse Bitcoin vers une autre adresse. En effet, les informations sur les transactions Bitcoin sont publiques en raison de la nature même de la blockchain, ce qui permet de les suivre. En les reliant sous forme de graphe, vous pouvez relier l'identifiant Telegram de la personne qui a initialement publié la publication à l'adresse Bitcoin, et même déterminer sur quelle plateforme d'échange le criminel a finalement encaissé. La technologie des graphes de connaissances suit systématiquement les liens entre différents identifiants dans le cadre d'enquêtes criminelles où les informations relationnelles sont importantes.

Q. Nous avons entendu parler des technologies d'analyse croisée multi-domaines, notamment des technologies de collecte de données, des technologies de modélisation linguistique spécifique à un domaine et des technologies de graphes de connaissances basés sur des ontologies. Comment ces technologies ont-elles été appliquées dans SAIP ?

Jung Jin-woo, directeur général de l'IA : S2W a créé des solutions SAIP pour les entreprises H et L. Il s'agit d'une méthode permettant de fournir des réponses lorsque les utilisateurs posent des questions, mais les deux entreprises ont des caractéristiques différentes.

L'entreprise H a intégré 130 000 documents internes répartis sur plusieurs portails métier et a développé un chatbot qui recherche rapidement les données pertinentes et fournit les réponses souhaitées aux questions des utilisateurs posées vocalement. Les valeurs fondamentales de ce projet sont l'intégration des données et une meilleure accessibilité. Auparavant, pour trouver des données de sécurité, il fallait accéder au portail de sécurité, et pour trouver des données sur les installations, il fallait accéder à ce portail séparément. Même les responsables sécurité peu familiarisés avec le domaine des installations avaient des difficultés à y accéder. Grâce au nouveau système intégré, si vous demandez : « Veuillez m'indiquer les consignes de sécurité relatives à cette installation », vous pouvez immédiatement obtenir les informations pertinentes sans avoir à accéder directement au portail.

Jung Jin-woo, Directeur général de l'IA : La solution d'analyse des tendances de L Company est un système qui analyse les évolutions du marché à partir des données d'achat des filiales de L Company. Par exemple, lorsque les ventes d'alcool augmentent, nous ne nous contentons pas de vérifier les chiffres, mais détectons les phénomènes connexes à partir de données externes telles que des articles de presse ou des réseaux sociaux afin de créer un rapport d'analyse complet et de le fournir. Plus précisément, si le volume d'achat des consommateurs individuels a fortement augmenté, nous collectons, affinons et analysons les données externes pour obtenir les raisons de cette augmentation et créer un rapport. S2W a automatisé le travail complexe d'analyse des tendances, auparavant effectué manuellement par les employés, améliorant ainsi considérablement l'efficacité et la précision.

Q. Vous avez débuté sur le dark web et vous vous développez désormais dans d'autres secteurs. Quels secteurs comptez-vous explorer à l'avenir ?

Jung Jin-woo, directeur général de l'IA : Palantir a également débuté dans les secteurs de la CIA et de la sécurité, mais s'est maintenant étendu à tous les secteurs d'activité. Je pense qu'il est plus facile de se développer lorsque la méthodologie est systématiquement établie. Nous considérons actuellement les secteurs de la finance et de la défense comme nos principales priorités.

Park Geun-tae, directeur technique : Cependant, plutôt que de nous développer à grande échelle en exploitant les actifs accumulés jusqu’à présent, nous prévoyons de privilégier un développement vertical plus profond. La personnalisation est un élément essentiel pour chaque entreprise. Or, l’industrie sidérurgique et le secteur de la distribution ayant des caractéristiques différentes, et même au sein d’une même entreprise sidérurgique, chacun ayant ses propres spécificités, nous pensons qu’une approche personnalisée est plus efficace. C’est pourquoi nous prévoyons de nous concentrer sur les secteurs où la performance est avérée.

Q. Il semble que la technologie doive continuer à progresser. Dans quelle direction comptez-vous la développer ?

Park Geun-tae, directeur technique : Nous cherchons à évoluer d'une approche centrée sur le texte vers une approche multimodale (image, vidéo, voix). Le domaine de la sécurité dispose d'un groupe d'experts internes, ce qui rend l'application de l'IA plus performante que dans d'autres domaines. Grâce à nos experts internes capables de rédiger des rapports de sécurité avancés, nous bénéficions de données de très haute qualité, exploitables pour l'apprentissage de l'IA.

Jung Jin-woo, directeur général de l'IA : Les agents doivent être capables de fournir des conclusions réellement utiles à la prise de décision. L'objectif de l'agent S2W est de mettre en œuvre une IA allant au-delà de la simple question-réponse pour produire des conclusions avancées, dignes de rapports d'experts.

Élargissement des solutions d'IA qui aident chaque entreprise à prendre des décisions

Nous avons pu confirmer l'approche unique de S2W. La clé réside dans son savoir-faire pour comprendre en profondeur les spécificités de chaque domaine et développer rapidement un modèle de langage adapté. Et surtout, elle se distingue par l'importance accordée à l'acquisition de connaissances métier par un conseil client approfondi.

S2W, initialement spécialisée dans l'analyse du dark web en 2018, est devenue une entreprise d'IA spécialisée dans l'analyse de big data provenant de divers secteurs, grâce à une approche technique rigoureuse et à un apprentissage continu. Les atouts techniques accumulés par S2W depuis ses débuts dans le domaine de la sécurité constituent un avantage concurrentiel majeur à l'ère de l'IA. Derrière cette appellation quelque peu complexe d'analyse croisée multi-domaines se cache en réalité l'effort constant pour mettre en œuvre une « IA qui pense comme un humain ».