– ダークウェブで積み上げた能力を産業に適用…昨年、産業用AIソリューション「SAIP」ソリューションをリリース
– マルチドメインクロス分析でセキュリティから製造・金融までドメイン特化AIを実現
-単純な質疑応答を超えて意思決定支援するエージェントAIで技術開発中
ダークウェブ専門企業で始まったエスツーダブル油(S2W、以下S2W)が昨年「SAIP(S2W AI Platform)」という産業用生成型AIプラットフォームを発売し、事業領域を拡大している。
ダークウェブは、一般的なインターネットブラウザではアクセスできない暗号化されたネットワークを意味します。麻薬取引、ハッキング、ランサムウェアなど各種サイバー犯罪が頻発するところだ。そのため、ダークウェブのデータは一般的なウェブデータとは異なり複雑です。特別なブラウザでアクセスする必要があります。ネットワーク構造も非常に不安定であり、追跡を避けるために意図的に複雑な言語を使用しています。データのノイズ比も非常に高い。データ間の隠された関係を見つけることも難しく、情報は非常に急速に変化して消滅します。
このような特性のため、ほとんどの企業がアプローチすら難しくなるダークウェブ領域で、S2Wは「ザビス」と「クエーサー」というダークウェブ専門ソリューションを開発した。ダークウェブの膨大で複雑な非定型データを収集し、データ間の意味を発見して関係を追跡するS2Wは「マルチドメインクロス分析技術」を開発した。
マルチドメインクロス分析技術は、異なる領域(ドメイン)のデータを統合して分析する技術であり、単一ドメインでは発見しにくいパターンやインサイトを導出することができる。例えば、サイバーセキュリティ分野ではネットワークトラフィックデータ、ユーザー行動データ、システムログデータなどをクロス分析して単一のデータソースでは検出しにくい高度化された脅威を識別することができ、金融分野では取引データ、顧客行動データ、外部市場データを組み合わせてより正確なリスク評価や詐欺検出が可能である。この技術は、AIとビッグデータ分析技術を利用してドメイン間の相関関係を見つけ、個々のドメイン分析と比較してはるかに高い精度と包括的な分析結果を提供します。
ダークウェブで積み上げた技術力量を一般産業に適用、SAIP(S2W AI Platform)発売
ダークウェブで蓄積した技術を一般企業が使用できるように開発したソリューションが「SAIP(S2W AI Platform)」だ。 SAIPは2024年2月に発売した産業用生成型AIプラットフォームで、企業内部のすべてのデータをChatGPTのように対話型に活用できるようにしてくれ、セキュリティと精度を大幅に強化したシステムだ。
SAIPの最大の特徴は、「セキュリティガードレール」というセキュリティシステムです。一般的なChatGPTや他のAIは時々間違った情報を提供したり機密情報を漏洩したりする可能性がありますが、SAIPは企業データを安全に保護しながら正確な答えを提供します。また、職級に応じてアクセスできる情報を差分化して設定することができ、人事資料などの機密情報は、許可を受けた人だけが閲覧できる。さらに、SAIPは、汎用的なソリューションを提供する他のAI企業とは異なり、各企業のドメインを深く理解し、カスタマイズされたソリューションを提供しています。
ダークウェブという最も難しい環境から始まり、今ではすべての産業のデータ分析を担当するAI企業に成長したS2Wの旅は、特殊な技術が汎用技術に拡張される革新の代表的な事例といえる。
京畿道城南市板橋S2W本社でパク・グンテCTOとチョン・ジヌAI総括理事に会った。パク・グンテCTOはKAISTで博士課程を終え、韓国電子通信研究院(ETRI)で分散システム開発を、ティマックスソフトでOS開発を担当した。その後SKテレコムで12年間ビッグデータとAI業務を遂行した。ビッグデータ、AI研究を大企業ではなくスタートアップで実装したいという考えに、2022年にS2Wに合流した。
チョン・ジヌAI総括理事はKAISTで修博士の過程で自然語処理(NLP)を専攻し、サムスン電子総合技術院でモバイル機械翻訳と素材科学論文情報抽出を研究した。特にデータ処理に関心が多いチョン・ジヌ理事は自然言語処理を通じてダークウェブの情報を処理することに興味を感じ、2020年に合流した。
S2Wで技術を総括するパク・グンテCTOとチョン・ジヌAI総括理事を通じて膨大な資料から希望するデータを収集する技術、ドメイン別カスタム言語モデル、関係性をグラフに結びつける知識グラフなど3つのコア技術とこれを元にした産業用生成型AIプラットフォーム「SAIP(S2W AI Platform)」が注目されている。 (専門的な技術を正確に伝えるためにQ&A形式で内容を構成した。)
Q. S2Wがセキュリティで起動しました。長所と差別点があるようです。
パク・グンテCTO:S2Wは「セキュリティ+データ」企業として定義できます。 AI時代になり、従来とは全く異なる性格のデータがAIシステムに流入しています。特に個人情報と密接な関連がある機密データがAI学習とサービス運営に大量に活用され、データの重要性とセキュリティ性がこれまで以上に重要な時代となりました。

AIサービスをうまく実装するには、セキュリティ専門家の役割が不可欠であり、セキュリティの深い理解が必要です。特に、外部データと内部データを融合して活用する過程で、セキュリティがより重要になります。金融分野では、厳しい規制環境下で大量の機密データを処理する必要があります。したがって、AIサービスを開発する際のセキュリティ要件を正確に特定し、設計段階から反映することが不可欠です。
セキュリティに基づいて始まったのがS2Wのコア競争力であると言えます。
Q. 「マルチドメインクロス分析技術」とは、異なる領域のデータを統合して分析する技術で、単一ドメインでは発見しにくいパターンやインサイトを導出することができます。 S2Wは、ダークウェブの専門ソリューションである「ザビス(JARVIS)」と「クエーサー(QUXAR)」にこの技術を適用して蓄積したノウハウを基に、SAIPにもこれを発展させて適用しました。マルチドメインクロス分析技術がどのような技術かを説明してください
パク・グンテCTO:どの企業や機関にも根本的な問題があります。企業を成長させたりリスクから抜け出すためには、企業内の最高の専門家が集まり、利用可能なすべての情報を収集した後、各専門家が自分の見解を提示し、議論を通じて問題を解決します。このプロセスをAIが実行できるように技術化したのが、マルチドメインクロス分析技術です。
チョン・ジヌAI総括取締役:具体的には3つの技術が結合されています。 1つ目はデータ収集技術、2つ目はドメイン特化言語モデル技術、3つ目はオントロジーベースの知識グラフ技術です。

Q. マルチドメイン交差分析に3つの技術があると言われましたが、中でもデータ収集技術が重要なようですね。 S2Wソリューションはどのようにデータを収集しますか?
パク・グンテCTO:S2Wが扱うのは社内データだけでなく、社外のすべてのデータです。データ形式もさまざまです。 Excelファイル、写真、Webデータ、政府公共機関の法令資料まで、あらゆる形態のデータを収集します。 S2Wは、ダークウェブや戦場環境のように、ネットワークの変化が激しくなったり、情報が一時的に登場したり消えたりするデータを安定的かつ効果的に収集することができます。
チョン・ジヌAI総括取締役:最も重要なのは「ジプラギで針を探す技術」です。 Web上の関心のあるデータは、インターネット上のすべてのデータを考慮するときに本当にジフラーで針を見つけるのと同じです。すべてをすべて収集すると費用に極めて非効率的であるため、収集段階から言語モデルを活用します。たとえば、ダークウェブデータの半分以上がポルノです。しかし、50%の確率であれば、一度保存した後、より洗練された言語モデルに再分類します。
現在、S2Wは月に千万個程度のウェブページを判別しています。これをすべてサーバーに保存することはできないため、段階的に言語モデルを適用して必要なデータのみを選別することです。
Q. 必要なデータを収集するためには、ドメイン特化言語モデルが必要であると言われましたが、ではドメイン特化言語モデルをどのようにそのように早く作成して適用できますか?
チョン・ジヌAI総括取締役:ある言語モデルが他の分野に適用されるとパフォーマンスが低下します。ポルノ判別モデルは金融分野では使用できません。そのため、ドメイン特化が必要ですが、特にモデルサイズが小さい場合にはさらに重要です。 ChatGPTのような巨大言語モデルはそれ自体優れた性能を示していますが、データが多い場合は大きなモデルを使用できません。リアルタイムに分類するには小さなモデルを使用する必要があります。そのためには、そのドメインに高度に特化したモデルが必要です。
パク・グンテCTO:顧客データを受け取ると、どの程度規模の言語モデルにどのデータを投入しなければならないかを非常に迅速に把握できます。そのため、他の競合他社よりも最適規模の言語モデルを迅速に構築でき、プロジェクトを非常に迅速に行うことができます。
Q. ドメイン特化モデルを作成するにはドメインを知る必要があるようですね。ドメインについてどうやって理解できますか?
チョン・ジヌAI総括理事:もし野球というドメインに対して言語モデルを開発するとしたら、野球を知る必要があります。そのため、S2Wは顧客との初期段階でコンサルティングを多く進めています。これを見落とす企業が多いのですが、通常、他の企業は「私たちのモデル一つになれます」と言います。私はそれが不可能だと思います。 S2Wが成果を上げることができた理由は、ダークウェブで多くの経験を積んだからです。ドメインの専門家と話し合って、カテゴリや特徴を非常に迅速かつ正確に抽出する作業を行います。
パク・グンテCTO:規模が非常に大きいH社プロジェクトも5ヶ月で完了しました。初期段階で1ヶ月程度をコンサルティングに投入しました。このとき、ドメインの専門家の役割は非常に重要です。
Q.最後に知識グラフ技術と知識グラフ技術をどのように活用するか説明してください。
チョン・ジヌAI総括取締役:知識グラフはノード(点)とエッジ(線)で構成されています。円のような円が複数あり、それ間の関係を線で描いたのが知識グラフです。構造化の最終段階が収集データをグラフ化することです。関係をきちんと把握するにはグラフで作らなければなりません。
S2Wはダークウェブで犯罪を追跡する際に知識グラフ技術を活用し始めました。犯罪追跡では、何よりも関係情報が重要だからです。たとえば、あるハッカーがダークウェブに企業情報を奪取して「OO資料いくらにポップします。テレグラムで会話しよう」という投稿を上げたとしましょう。 S2Wはその投稿からテレグラムIDを重要な特徴に抽出し、他のダークウェブサイトやプラットフォームで同じテレグラムIDを使用したケースを探索して2つをリンクします。犯罪者がビットコインアドレスも一緒に残した場合、これを別のノードに設定してテレグラムIDと関連付け、そのビットコインアドレスから他のアドレスへの送金履歴も従います。ビットコイン取引情報はブロックチェーンの特性上公開されており、追跡が可能なためです。このようにグラフにつなげると、最初の投稿を投稿した人のテレグラムIDからビットコインアドレスまでつながり、この犯罪者が最終的にどの取引所で現金化したかまで把握できます。このように、関係情報が重要な犯罪捜査領域で様々な識別子間の関連性を体系的に追跡することがまさに知識グラフ技術です。
Q. マルチドメインクロス分析技術、すなわちデータ収集技術、ドメイン特化言語モデル技術、オントロジーベースの知識グラフ技術について話しました。それでは、これらの技術はSAIPにどのように適用されていますか?
チョン・ジヌAI総括取締役:S2WがH社とL社にSAIPソリューションを構築しました。ユーザーが質問すると答えを提供する方法ですが、両方の会社の特徴が異なります。
H社は、複数の業務ポータルに分散していた13万件の社内文書を統合し、ユーザーが音声で質問すると、関連データを素早く検索して希望の回答を提供するチャットボットを構築しました。このプロジェクトの重要な価値は、データ統合とアクセシビリティの向上にあります。従来は安全データを探すには安全ポータルに、設備データを探すには設備ポータルにそれぞれ接続しなければなりませんでしたが、安全担当者でも設備分野に慣れていなければ設備ポータルにアクセスしにくい状況でした。しかし、新しい統合システムでは、「これらの施設に関する安全に関するガイドラインを教えてください」と要求すると、施設ポータルに直接アクセスする必要なく、すぐに関連情報を提供することができました。
チョン・ジヌAI総括取締役:L社トレンド分析ソリューションは、L社系列会社の購買データを活用して市場変化を分析するシステムです。例えば酒類販売量が急増した時、単に数値だけを確認するのではなく、その原因をニュース記事やSNSなど外部データから関連現象を検出して総合的な分析報告書を作成して提供します。具体的に、ホンス族の購入量が急激に増加した場合、外部データを収集して精製し分析し、「ホンス族が増加した原因は以下の通り」という結果を導き出して報告書で製作します。以前は、従業員が手作業で行った複雑なトレンド分析業務をS2Wが自動化し、効率性と精度を大幅に向上させていました。
Q.ダークウェブから始めて、今では産業に事業を拡大していますが、今後どのような産業に拡張する計画ですか?
チョン・ジヌAI総括理事:パランティアも過去にCIAと安保・セキュリティ分野で始まり、今はすべての企業領域に拡張しました。方法論が体系的に構築されていれば拡張がより容易になるようです。現在、金融分野と防衛分野を優先的に検討しています。
パク・グンテCTO:しかし、これまで蓄積された資産を活用して広く拡大するよりも、垂直的により深く構築することを優先的に考慮する計画です。企業ごとのカスタマイジングは必須要素であり、鉄鋼業と流通業が異なる特性を持っており、同じ鉄鋼業者であってもそれぞれ固有の特徴があるため、オーダーメイドのアプローチがより効果的であると判断しています。したがって、成果が検証された分野中心に重みを置いて事業を進める計画です。
Q. 技術も引き続き高度化させたいと思いますが、具体的にどの方向に発展させる計画ですか?
パク・グンテCTO:テキスト中心からマルチモーダル(画像、動画、音声)に発展しようとしています。セキュリティ分野は内部に専門家集団があり、AI適用レベルが他の分野より高い方です。高度なセキュリティレポートを作成できる専門スタッフが内部にあるため、AI学習に活用できるデータの品質が非常に高いという利点があります。
チョン・ジヌAI総括取締役:エージェントは、意思決定に実質的に役立つ結論を提示することができなければなりません。単純な質問回答レベルを超えて専門家が作成したレポートレベルの高度な結論を導き出すAIを実装することがS2Wエージェントの指向点です。

あらゆる企業の意思決定を支援するAIソリューションに拡張
S2Wだけの差別化されたアプローチを確認することができた。各ドメインの特性を深く理解し、それに合った小型言語モデルを迅速に開発するノウハウが核心だ。そして何よりも顧客との徹底したコンサルティングを通じてドメイン知識を習得する過程を重視するという点が特徴的だ。
2018年にダークウェブ分析で始まったS2Wが、今や様々な産業のビッグデータを分析するAI企業に成長した背景には、このような緻密な技術的アプローチと継続的なドメイン学習があった。 S2Wがセキュリティ分野で始まり蓄積した技術的資産がAI時代にむしろより大きな競争力で作用している状況だ。マルチドメイン交差分析というやや複雑な名称の後に隠された真の核心は、結局「人のように思考するAI」を実装しようとする粘り強い努力だった。
You must be logged in to post a comment.