– 다크웹에서 쌓은 역량을 산업에 적용…지난해 산업용 AI 솔루션 ‘SAIP’ 솔루션 출시
– 멀티도메인 교차분석으로 보안부터 제조·금융까지 도메인 특화 AI 구현
-단순 질의응답 넘어 의사결정 지원하는 에이전트 AI로 기술 개발 중
다크웹 전문 기업으로 시작한 에스투더블유(S2W, 이하 S2W)가 지난해 ‘SAIP(S2W AI Platform)’라는 산업용 생성형 AI 플랫폼을 출시하며 사업 영역을 확장하고 있다.
다크웹은 일반적인 인터넷 브라우저로는 접속할 수 없는 암호화된 네트워크를 의미한다. 마약거래, 해킹, 랜섬웨어 등 각종 사이버범죄가 빈발하는 곳이다. 그렇기 때문에 다크웹의 데이터는 일반적인 웹 데이터와 다르게 복잡하다. 특수한 브라우저로 접근해야 한다. 네트워크 구조도 매우 불안정하며 추적을 피하기 위해 의도적으로 복잡한 언어를 사용한다. 데이터의 노이즈 비율도 매우 높다. 데이터 간의 숨겨진 관계를 발견하기도 어렵고 정보가 매우 빠르게 변화하고 소멸한다.
이러한 특성 때문에 대부분의 기업들이 접근조차 어려워하는 다크웹 영역에서 S2W는 ‘자비스’와 ‘퀘이사’라는 다크웹 전문 솔루션을 개발했다. 다크웹의 방대하고 복잡한 비정형 데이터를 수집하고 데이터 간의 의미를 발견해 관계를 추적하기 S2W는 ‘멀티도메인 교차분석 기술’을 개발했다.
멀티도메인 교차분석 기술은 서로 다른 영역(도메인)의 데이터를 통합하여 분석하는 기술로, 단일 도메인에서는 발견하기 어려운 패턴이나 인사이트를 도출할 수 있다. 예를 들어 사이버 보안 분야에서는 네트워크 트래픽 데이터, 사용자 행동 데이터, 시스템 로그 데이터 등을 교차 분석하여 단일 데이터 소스로는 탐지하기 어려운 고도화된 위협을 식별할 수 있으며, 금융 분야에서는 거래 데이터, 고객 행동 데이터, 외부 시장 데이터를 결합하여 더 정확한 리스크 평가나 사기 탐지가 가능하다. 이러한 기술은 AI와 빅데이터 분석 기법을 활용하여 도메인 간 상관관계를 찾아내고, 개별 도메인 분석 대비 훨씬 높은 정확도와 포괄적인 분석 결과를 제공한다.
다크웹에서 쌓은 기술 역량을 일반 산업에 적용, SAIP(S2W AI Platform) 출시
다크웹에서 축적한 기술을 일반 기업이 사용할 수 있도록 개발한 솔루션이 바로 ‘SAIP(S2W AI Platform)’이다. SAIP는 2024년 2월에 출시한 산업용 생성형 AI 플랫폼으로 기업 내부의 모든 데이터를 ChatGPT처럼 대화형으로 활용할 수 있게 해주되, 보안과 정확성을 대폭 강화한 시스템이다.
SAIP의 가장 큰 특징은 ‘시큐리티 가드레일’이라는 보안 시스템이다. 일반적인 ChatGPT나 다른 AI가 가끔 잘못된 정보를 제공하거나 민감한 정보를 유출할 위험이 있는 반면, SAIP는 기업 데이터를 안전하게 보호하면서도 정확한 답변만 제공한다. 또한 직급에 따라 접근할 수 있는 정보를 차등화하여 설정할 수 있어, 인사 자료 같은 민감한 정보는 허가받은 사람만 열람할 수 있다. 더불어 SAIP는 범용적인 솔루션을 제공하는 다른 AI 기업들과 달리 각 기업의 도메인을 깊이 이해하고 맞춤형 솔루션을 제공하고 있다.
다크웹이라는 가장 어려운 환경에서 시작해서 이제는 모든 산업의 데이터 분석을 담당하는 AI 기업으로 성장한 S2W의 여정은, 특수한 기술이 범용 기술로 확장되는 혁신의 대표적인 사례라고 할 수 있다.
경기도 성남시 판교 S2W 본사에서 박근태 CTO와 정진우 AI 총괄이사를 만났다. 박근태 CTO는 KAIST에서 박사과정을 마치고 한국전자통신연구원(ETRI)에서 분산시스템 개발을, 티맥스소프트에서 OS 개발을 담당했다. 그 후 SK텔레콤에서 12년간 빅데이터와 AI 업무를 수행했다. 빅데이터, AI 연구를 대기업이 아닌 스타트업에서 구현해내고 싶다는 생각에 2022년에 S2W에 합류했다.
정진우 AI 총괄이사는 KAIST에서 석박사 과정을 하면서 자연어처리(NLP)를 전공했고, 삼성전자종합기술원에서 모바일 기계번역과 소재과학 논문 정보추출을 연구했다. 특히 데이터 처리에 관심이 많은 정진우 이사는 자연어처리를 통해 다크웹의 정보를 처리하는 데 흥미를 느껴 2020년에 합류했다.
S2W에서 기술을 총괄하는 박근태 CTO와 정진우 AI 총괄이사를 통해 방대한 자료에서 원하는 데이터를 수집하는 기술, 도메인별 맞춤형 언어모델, 관계성을 그래프로 연결하는 지식그래프 등 3가지 핵심기술과 이를 바탕으로 한 산업용 생성형 AI 플랫폼 ‘SAIP(S2W AI Platform)’가 주목받는 이유에 대한 이야기를 들었다. (전문적인 기술을 정확하게 전달하기 위해 Q&A 형식으로 내용을 구성했다.)
Q. S2W가 보안으로 시작했습니다. 장점과 차별점이 있을 거 같습니다.
박근태 CTO : S2W는 ‘보안+데이터’ 기업으로 정의할 수 있습니다. AI 시대가 되면서 기존과 완전히 다른 성격의 데이터가 AI 시스템에 유입되고 있습니다. 특히 개인정보와 밀접한 관련이 있는 민감한 데이터가 AI 학습과 서비스 운영에 대량으로 활용되면서, 데이터의 중요성과 보안성이 그 어느 때보다 중요한 시대가 되었습니다.

AI 서비스를 성공적으로 구현하기 위해서는 보안 전문가의 역할이 필수적이며, 따라서 보안에 대한 깊이 있는 이해가 요구됩니다. 특히 외부 데이터와 내부 데이터를 융합하여 활용하는 과정에서 보안이 더욱 중요해집니다. 금융 분야의 경우 엄격한 규제 환경 하에서 다량의 민감 데이터를 처리해야 합니다. 따라서 AI 서비스 개발 시 보안 요건을 정확히 파악하고 이를 설계 단계부터 반영하는 것이 필수적입니다.
보안을 기반으로 시작한 것이 S2W의 핵심 경쟁력이라고 말할 수 있습니다.
Q. ‘멀티도메인 교차분석 기술’은 서로 다른 영역의 데이터를 통합하여 분석하는 기술로, 단일 도메인에서는 발견하기 어려운 패턴이나 인사이트를 도출할 수 있게 해줍니다. S2W는 다크웹 전문 솔루션인 ‘자비스(JARVIS)’와 ‘퀘이사(QUXAR)’에 이 기술을 적용하여 축적한 노하우를 바탕으로, SAIP에도 이를 발전시켜 적용했습니다. 멀티도메인 교차분석 기술이 어떤 기술인지 설명해주세요
박근태 CTO : 어떤 기업이나 기관에서든 근본적인 문제들이 존재합니다. 회사를 성장시키거나 위험에서 벗어나기 위해서는 해당 기업 내 최고 전문가들이 모여 활용 가능한 모든 정보를 수집한 후, 각 전문가가 자신의 견해를 제시하고 토론을 통해 문제를 해결합니다. 이러한 과정을 AI가 수행할 수 있도록 기술화한 것이 멀티도메인 교차분석 기술입니다.
정진우 AI 총괄이사 : 구체적으로는 세 가지 기술이 결합되어 있습니다. 첫 번째는 데이터 수집 기술, 두 번째는 도메인 특화 언어모델 기술, 세 번째는 온톨로지 기반 지식그래프 기술입니다.

Q. 멀티도메인교차 분석에 세가지 기술이 있다고 하셨는데 그중에서도 데이터 수집 기술이 중요한 것 같네요. S2W 솔루션들은 어떻게 데이터를 수집하나요?
박근태 CTO : S2W가 다루는 것은 사내 데이터뿐만 아니라 사외의 모든 데이터입니다. 데이터 형태도 다양합니다. 엑셀 파일, 사진, 웹 데이터, 정부 공공기관의 법령 자료까지 모든 형태의 데이터를 수집합니다. S2W는 다크웹이나 전장 환경처럼 네트워크 변화가 심하거나 정보가 일시적으로 등장했다 사라지는 데이터들을 안정적이고 효과적으로 수집할 수 있습니다.
정진우 AI 총괄이사 : 가장 중요한 것은 ‘지푸라기에서 바늘 찾는 기술’입니다. 웹상의 관심 있는 데이터는 인터넷상 모든 데이터를 고려할 때 정말 지푸라기에서 바늘을 찾는 것과 같습니다. 모든 것을 다 수집하면 비용에 극도로 비효율적이기 때문에 그래서 수집 단계에서부터 언어모델을 활용합니다. 예를 들어 다크웹 데이터의 절반 이상이 음란물인데, 이를 99.9% 확률로 음란물이라고 판별하면 바로 폐기합니다. 하지만 50% 확률이면 일단 저장해둔 후 더 정교한 언어모델로 재분류합니다.
현재 S2W는 한 달에 천만 개 정도의 웹페이지를 판별하고 있습니다. 이를 모두 서버에 저장할 수는 없기 때문에 단계별로 언어모델을 적용하여 필요한 데이터만 선별하는 것입니다.
Q. 필요한 데이터를 수집하기 위해서는 도메인 특화 언어모델이 있어야 한다고 하셨는데, 그럼 도메인 특화 언어모델을 어떻게 그렇게 빨리 만들어서 적용할 수 있나요?
정진우 AI 총괄이사 : 하나의 언어모델이 다른 분야에 적용하면 성능이 저하됩니다. 음란물 판별 모델을 금융 분야에서 사용할 수 없습니다. 그래서 도메인 특화가 필요한데, 특히 모델 크기가 작을 때 더욱 중요합니다. ChatGPT 같은 거대언어모델은 자체적으로 우수한 성능을 보이지만, 데이터가 많을 경우 큰 모델을 사용할 수 없습니다. 실시간으로 분류하려면 작은 모델을 사용해야 하는데, 이를 위해서는 해당 도메인에 고도로 특화된 모델이 필요합니다.
박근태 CTO : 고객사 데이터를 받으면 어느 정도 규모의 언어모델에 어떤 데이터를 투입해야 작동할지를 매우 신속하게 파악할 수 있습니다. 그래서 다른 경쟁사보다 최적 규모의 언어모델을 빠르게 구축할 수 있고, 프로젝트를 매우 신속하게 수행할 수 있습니다.
Q. 도메인 특화 모델을 만들려면 도메인을 알아야 할 것 같네요. 도메인에 대해서는 어떻게 이해하나요?
정진우 AI 총괄이사 : 만약 야구라는 도메인에 대해 언어모델을 개발한다고 하면, 야구를 알아야 합니다. 그래서 S2W는 고객사와 초기 단계에서 컨설팅을 많이 진행합니다. 이를 간과하는 업체들이 많은데, 보통 다른 업체들은 “우리 모델 하나면 다 됩니다”라고 말합니다. 저는 그것이 불가능하다고 생각합니다. S2W가 성과를 낼 수 있었던 이유는 다크웹에서 많은 경험을 쌓았기 때문입니다. 도메인 전문가들과 논의하여 카테고리나 특징을 매우 신속하고 정확하게 추출하는 작업을 수행합니다.
박근태 CTO : 규모가 매우 큰 H사 프로젝트도 5개월 만에 완료했습니다. 초기 단계에서 한 달 정도를 컨설팅에 투입했습니다. 이때 도메인 전문가의 역할이 매우 중요합니다.
Q. 마지막으로 지식그래프 기술과 지식그래프 기술을 어떻게 활용하는지 설명해주세요.
정진우 AI 총괄이사 : 지식그래프는 노드(점)와 엣지(선)로 이루어진 거예요. 동그라미 같은 원들이 여러 개 있고 그거 사이에 관계를 선으로 그어 놓은 게 지식그래프입니다. 구조화의 최종 단계가 수집 데이터를 그래프로 표현하는 거예요. 관계를 제대로 파악하려면 그래프로 만들어야 하거든요.
S2W는 다크웹에서 범죄를 추적할 때 지식그래프 기술을 활용하기 시작했습니다. 범죄 추적에서는 무엇보다 관계 정보가 핵심이기 때문입니다. 예를 들어, 어떤 해커가 다크웹에 기업 정보를 탈취해서 “OO 자료 얼마에 팝니다. 텔레그램에서 대화하자”라는 게시물을 올렸다고 가정해보겠습니다. S2W는 해당 게시물에서 텔레그램 아이디를 핵심 특징으로 추출하고, 다른 다크웹 사이트나 플랫폼에서 동일한 텔레그램 아이디가 사용된 사례를 탐색하여 두 개를 연결합니다. 범죄자가 비트코인 주소도 함께 남긴 경우, 이를 또 다른 노드로 설정하여 텔레그램 아이디와 연결하고, 해당 비트코인 주소에서 다른 주소로의 송금 내역도 따라갑니다. 비트코인 거래 정보는 블록체인의 특성상 공개되어 있어 추적이 가능하기 때문입니다. 이렇게 그래프로 연결하다 보면 처음 게시물을 올린 사람의 텔레그램 아이디부터 비트코인 주소까지 연결되고, 이 범죄자가 최종적으로 어느 거래소에서 현금화했는지까지 파악할 수 있습니다. 이처럼 관계 정보가 중요한 범죄 수사 영역에서 다양한 식별자들 간의 연관성을 체계적으로 추적하는 것이 바로 지식그래프 기술입니다.
Q. 멀티도메인 교차분석 기술, 즉 데이터 수집 기술, 도메인 특화 언어모델 기술, 온톨로지 기반 지식그래프 기술에 대해 이야기를 들었습니다. 그렇다면 이러한 기술들이 SAIP에서는 어떻게 적용되었나요?
정진우 AI 총괄이사 : S2W가 H사와 L사에 SAIP 솔루션을 구축했습니다. 사용자가 질문하면 답변을 제공하는 방식인데, 두 회사의 특징이 다릅니다.
H사는 여러 업무 포털에 분산되어 있던 13만 개의 사내 문서를 통합하여, 사용자가 음성으로 질문하면 관련 데이터를 신속하게 검색해서 원하는 답변을 제공하는 챗봇을 구축했습니다. 이 프로젝트의 핵심 가치는 데이터 통합과 접근성 개선에 있습니다. 기존에는 안전 데이터를 찾으려면 안전 포털에, 설비 데이터를 찾으려면 설비 포털에 각각 접속해야 했는데, 안전 담당자라도 설비 분야에 익숙하지 않으면 설비 포털에 접근하기 어려운 상황이었습니다. 하지만 새로운 통합 시스템에서는 “이러한 설비 관련 안전 지침을 알려달라”고 요청하면 설비 포털에 직접 접속할 필요 없이 관련 정보를 즉시 제공받을 수 있게 되었습니다.
정진우 AI 총괄이사 : L사 트렌드 분석 솔루션은 L사 계열사의 구매 데이터를 활용하여 시장 변화를 분석하는 시스템입니다. 예를 들어 주류 판매량이 급증했을 때, 단순히 수치만 확인하는 것이 아니라 그 원인을 뉴스 기사나 SNS 등 외부 데이터에서 관련 현상을 탐지하여 종합적인 분석 보고서를 작성해 제공합니다. 구체적으로 혼술족의 구매량이 급격히 증가했다면, 외부 데이터를 수집하여 정제하고 분석해서 “혼술족이 증가한 원인은 다음과 같다”는 결과를 도출하여 보고서로 제작합니다. 이전에는 직원이 수작업으로 수행했던 복잡한 트렌드 분석 업무를 S2W가 자동화하여 효율성과 정확성을 크게 향상시켰습니다.
Q. 다크웹에서 시작해서 이제 산업으로 사업을 확장하고 계신데, 앞으로 어떤 산업으로 확장할 계획인가요?
정진우 AI 총괄이사 : 팔란티어도 과거에 CIA와 안보·보안 분야로 시작했다가 지금은 모든 기업 영역으로 확장했습니다. 방법론이 체계적으로 구축되어 있으면 확장이 보다 용이해지는 것 같습니다. 현재 금융 분야와 국방 분야를 우선적으로 검토하고 있습니다.
박근태 CTO : 하지만 그동안 축적된 자산을 활용해 넓게 확장하기보다는 수직적으로 더 깊이 있게 구축하는 것을 우선적으로 고려할 계획입니다. 기업마다 커스터마이징은 필수적인 요소로, 철강업과 유통업이 서로 다른 특성을 가지고 있으며, 동일한 철강업체라 하더라도 각각 고유한 특징이 있기 때문에 맞춤형 접근이 더 효과적이라고 판단하고 있습니다. 따라서 성과가 검증된 분야 위주로 가중치를 두고 사업을 진행할 계획입니다.
Q. 기술도 계속 고도화시켜야 할 것 같은데요, 구체적으로 어떤 방향으로 발전시킬 계획인가요?
박근태 CTO : 텍스트 중심에서 멀티모달(이미지, 동영상, 음성)로 발전하려고 합니다. 보안 분야는 내부에 전문가 집단이 있어서 AI 적용 수준이 다른 분야보다 높은 편입니다. 고급 보안 리포트를 작성할 수 있는 전문 인력이 내부에 있기 때문에 AI 학습에 활용할 수 있는 데이터의 품질이 매우 높다는 장점이 있습니다.
정진우 AI 총괄이사 : 에이전트는 의사결정에 실질적으로 도움이 되는 결론을 제시할 수 있어야 합니다. 단순한 질문답변 수준을 넘어서 전문가가 작성한 리포트 수준의 고도화된 결론을 도출하는 AI를 구현하는 것이 S2W 에이전트의 지향점입니다.

모든 기업의 의사결정을 도와주는 AI 솔루션으로 확장
S2W만의 차별화된 접근법을 확인할 수 있었다. 각 도메인의 특성을 깊이 이해하고 그에 맞는 소형 언어모델을 신속하게 개발하는 노하우가 핵심이다. 그리고 무엇보다 고객과의 철저한 컨설팅을 통해 도메인 지식을 습득하는 과정을 중시한다는 점이 특징적이다.
2018년 다크웹 분석으로 시작한 S2W가 이제 다양한 산업의 빅데이터를 분석하는 AI 기업으로 성장한 배경에는 이러한 치밀한 기술적 접근과 지속적인 도메인 학습이 있었다. S2W가 보안 분야에서 시작하여 축적한 기술적 자산이 AI 시대에 오히려 더 큰 경쟁력으로 작용하고 있는 상황이다. 멀티도메인 교차분석이라는 다소 복잡한 명칭 뒤에 숨겨진 진정한 핵심은 결국 ‘사람처럼 사고하는 AI’를 구현하려는 끈질긴 노력이었다.
S2W expands data analysis technology accumulated on the dark web to implement industrial AI
– Applying capabilities accumulated on the dark web to industry… Launching industrial AI solution ‘SAIP’ solution last year
– Implement domain-specific AI from security to manufacturing and finance through multi-domain cross-analysis
– Developing technology to support decision-making through agent AI beyond simple Q&A
S2W (hereinafter referred to as S2W), which started as a dark web specialist company, is expanding its business area by launching an industrial generative AI platform called 'SAIP (S2W AI Platform)' last year.
The dark web refers to an encrypted network that cannot be accessed with a general internet browser. It is a place where various cybercrimes such as drug trafficking, hacking, and ransomware occur frequently. Therefore, the data on the dark web is complex, unlike general web data. It must be accessed with a special browser. The network structure is also very unstable, and complex language is intentionally used to avoid tracking. The noise ratio of the data is also very high. It is difficult to discover hidden relationships between data, and information changes and disappears very quickly.
Due to these characteristics, S2W developed dark web specialized solutions called 'Jarvis' and 'Quasar' in the dark web area that most companies have difficulty accessing. S2W developed 'multi-domain cross-analysis technology' to collect the vast and complex unstructured data of the dark web, discover the meaning between the data, and track the relationship.
Multi-domain cross-analysis technology is a technology that integrates and analyzes data from different areas (domains), and can derive patterns or insights that are difficult to discover in a single domain. For example, in the field of cybersecurity, network traffic data, user behavior data, and system log data can be cross-analyzed to identify advanced threats that are difficult to detect with a single data source, and in the financial field, transaction data, customer behavior data, and external market data can be combined to enable more accurate risk assessment or fraud detection. This technology utilizes AI and big data analysis techniques to find correlations between domains, and provides much higher accuracy and comprehensive analysis results than individual domain analysis.
Applying the technical capabilities accumulated in the dark web to general industries, launching SAIP (S2W AI Platform)
The solution developed to allow general companies to use the technology accumulated on the dark web is 'SAIP (S2W AI Platform)'. SAIP is an industrial generative AI platform launched in February 2024 that allows all data within a company to be used in a conversational manner like ChatGPT, but is a system that greatly enhances security and accuracy.
The biggest feature of SAIP is the security system called 'Security Guardrail'. While general ChatGPT or other AI sometimes provide incorrect information or risk leaking sensitive information, SAIP safely protects corporate data while providing only accurate answers. In addition, information that can be accessed can be differentiated and set according to job title, so that only authorized people can view sensitive information such as personnel data. In addition, unlike other AI companies that provide general solutions, SAIP deeply understands each company's domain and provides customized solutions.
S2W’s journey from starting in the most difficult environment known as the dark web to now growing into an AI company that handles data analysis across all industries is a prime example of innovation where specialized technologies expand into general-purpose technologies.
We met CTO Park Geun-tae and AI Director Jeong Jin-woo at the S2W headquarters in Pangyo, Seongnam-si, Gyeonggi-do. CTO Park Geun-tae completed his doctoral studies at KAIST and worked on distributed system development at the Electronics and Telecommunications Research Institute (ETRI) and OS development at TmaxSoft. After that, he worked on big data and AI at SK Telecom for 12 years. He joined S2W in 2022 because he wanted to implement big data and AI research at a startup rather than a large corporation.
AI General Manager Jinwoo Jeong majored in Natural Language Processing (NLP) while completing his master’s and doctoral studies at KAIST, and studied mobile machine translation and information extraction from materials science papers at Samsung Advanced Institute of Technology. With a particular interest in data processing, Director Jinwoo Jeong joined in 2020 after being interested in processing information on the dark web through natural language processing.
We heard from CTO Park Geun-tae, who is in charge of technology at S2W, and AI Director Jeong Jin-woo about the three core technologies, including the technology to collect desired data from massive data, a customized language model for each domain, and a knowledge graph that connects relationships into a graph, and why the industrial generative AI platform 'SAIP (S2W AI Platform)' based on these technologies is attracting attention. (The content was organized in a Q&A format to accurately convey professional technologies.)
Q. S2W started with security. I think it has advantages and differences.
CTO Park Geun-tae: S2W can be defined as a 'security + data' company. In the AI era, data of a completely different nature than before is flowing into AI systems. In particular, as sensitive data closely related to personal information is used in large quantities for AI learning and service operation, the importance and security of data have become more important than ever.

In order to successfully implement AI services, the role of security experts is essential, and therefore, a deep understanding of security is required. In particular, security becomes more important in the process of combining and utilizing external and internal data. In the financial sector, a large amount of sensitive data must be processed under a strict regulatory environment. Therefore, it is essential to accurately identify security requirements when developing AI services and reflect them from the design stage.
It can be said that S2W's core competitiveness is that it started from a security-based foundation.
Q. 'Multi-domain cross-analysis technology' is a technology that integrates and analyzes data from different areas, allowing for the derivation of patterns or insights that are difficult to discover in a single domain. S2W has applied this technology to 'JARVIS' and 'QUXAR', specialized dark web solutions, and has developed and applied it to SAIP based on the accumulated know-how. Please explain what multi-domain cross-analysis technology is.
CTO Park Geun-tae: There are fundamental problems in any company or organization. In order to grow the company or avoid risks, the best experts in the company gather together, collect all available information, and then each expert presents his or her own opinion and discusses the problem to solve it. The technology that enables AI to perform this process is the multi-domain cross-analysis technology.
Jeong Jin-woo, AI General Manager: Specifically, it is a combination of three technologies. The first is data collection technology, the second is domain-specific language model technology, and the third is ontology-based knowledge graph technology.

Q. You said there are three technologies for multi-domain cross-analysis, but among them, data collection technology seems to be the most important. How do S2W solutions collect data?
CTO Park Geun-tae: S2W handles not only internal data but also all external data. The data types are also diverse. We collect all types of data, including Excel files, photos, web data, and government public agency legal data. S2W can reliably and effectively collect data in dark web or battlefield environments where network changes are severe or information appears and disappears temporarily.
Jung Jin-woo, AI General Manager: The most important thing is the 'needle in a haystack technology'. Data of interest on the web is like finding a needle in a haystack when considering all data on the Internet. It is extremely cost-inefficient to collect everything, so we utilize language models from the collection stage. For example, more than half of dark web data is pornography, and if we determine that it is pornography with a 99.9% probability, we discard it immediately. However, if it is with a 50% probability, we store it for the time being and reclassify it with a more sophisticated language model.
Currently, S2W identifies about 10 million web pages per month. Since we cannot store all of them on our servers, we apply language models step by step to select only the necessary data.
Q. You said that domain-specific language models are necessary to collect the necessary data. So how can you create and apply domain-specific language models so quickly?
Jeong Jin-woo, AI General Manager: If a language model is applied to a different field, its performance deteriorates. You can't use a pornography detection model in the financial field. That's why domain specialization is necessary, and it's especially important when the model size is small. Large language models like ChatGPT show excellent performance on their own, but when there's a lot of data, you can't use a large model. If you want to classify in real time, you need to use a small model, and for that, you need a model that is highly specialized for the domain.
CTO Park Geun-tae: When we receive customer data, we can very quickly figure out what data needs to be input into a language model of a certain scale to make it work. So we can build an optimal-scale language model faster than other competitors and carry out the project very quickly.
Q. I think you need to know the domain to create a domain-specific model. What do you understand about the domain?
Jung Jin-woo, AI General Manager: If you develop a language model for the baseball domain, you need to know baseball. That's why S2W conducts a lot of consulting with clients in the early stages. Many companies overlook this, and other companies usually say, "Our model is all you need." I think that's impossible. The reason S2W was able to achieve results is because we have a lot of experience in the dark web. We discuss with domain experts and extract categories and features very quickly and accurately.
CTO Park Geun-tae: We completed the very large-scale H company project in just 5 months. We spent about a month on consulting in the initial stages. At this time, the role of domain experts is very important.
Q. Lastly, please explain knowledge graph technology and how to utilize it.
Jung Jin-woo, AI General Manager: A knowledge graph is made up of nodes (points) and edges (lines). A knowledge graph is made up of multiple circles, with lines drawn between them to show relationships. The final stage of structuring is to express the collected data as a graph. In order to properly understand relationships, you have to create a graph.
S2W started using knowledge graph technology to track crimes on the dark web. This is because relationship information is the key in crime tracking. For example, let's say a hacker stole corporate information on the dark web and posted "OO data for sale for this price. Let's chat on Telegram." S2W extracts the Telegram ID as a key feature from the post, searches for cases where the same Telegram ID was used on other dark web sites or platforms, and connects the two. If the criminal also left a Bitcoin address, it sets it as another node and connects it to the Telegram ID, and also follows the transfer history from that Bitcoin address to another address. This is because Bitcoin transaction information is public due to the nature of blockchain, so it can be tracked. If you connect it in this way as a graph, you can connect the Telegram ID of the person who first posted the post to the Bitcoin address, and you can even figure out which exchange the criminal finally cashed out on. Knowledge graph technology systematically tracks the connections between various identifiers in the area of crime investigation where relationship information is important.
Q. We have heard about multi-domain cross-analysis technologies, namely data collection technologies, domain-specific language model technologies, and ontology-based knowledge graph technologies. So how were these technologies applied in SAIP?
Jung Jin-woo, AI General Manager: S2W has built SAIP solutions for companies H and L. It is a method of providing answers when users ask questions, but the two companies have different characteristics.
Company H integrated 130,000 internal documents that were scattered across multiple business portals and built a chatbot that quickly searches for relevant data and provides desired answers when users ask questions via voice. The core values of this project are data integration and improved accessibility. Previously, to find safety data, you had to access the safety portal, and to find facility data, you had to access the facility portal separately. Even for safety managers who were not familiar with the facility field, it was difficult to access the facility portal. However, with the new integrated system, if you ask, “Please tell me the safety guidelines related to this facility,” you can immediately receive relevant information without having to directly access the facility portal.
Jung Jin-woo, AI General Manager: L Company's trend analysis solution is a system that analyzes market changes using purchase data from L Company's affiliates. For example, when alcohol sales surge, we don't simply check the numbers, but detect related phenomena from external data such as news articles or SNS to create a comprehensive analysis report and provide it. Specifically, if the purchase volume of solo drinkers has increased sharply, we collect, refine, and analyze external data to derive the results of "The reasons for the increase in solo drinkers are as follows" and create a report. S2W has automated the complex trend analysis work that was previously performed manually by employees, greatly improving efficiency and accuracy.
Q. You started out on the dark web and are now expanding into industries. What industries do you plan to expand into in the future?
Jung Jin-woo, AI General Manager: Palantir also started out in the CIA and security and security sectors, but has now expanded to all corporate sectors. I think it’s easier to expand when the methodology is systematically established. We are currently reviewing the financial and defense sectors as our top priorities.
CTO Park Geun-tae: However, rather than expanding widely by utilizing the assets accumulated so far, we plan to prioritize building more deeply vertically. Customization is an essential element for each company, and since the steel industry and distribution industry have different characteristics, and even within the same steel company, each has its own unique characteristics, we believe that a customized approach is more effective. Therefore, we plan to conduct business by focusing on areas with proven performance.
Q. It seems like technology needs to continue to advance. What specific direction do you plan to develop it in?
CTO Park Geun-tae: We are trying to evolve from text-centric to multimodal (image, video, voice). The security field has a group of experts internally, so the level of AI application is higher than other fields. Since we have experts internally who can write advanced security reports, we have the advantage of having very high quality data that can be used for AI learning.
Jung Jin-woo, AI General Manager: Agents must be able to provide conclusions that are actually helpful in decision-making. The goal of the S2W agent is to implement AI that goes beyond simple question-answering to produce advanced conclusions at the level of expert-written reports.

Expanding to AI solutions that help every business make decisions
We were able to confirm S2W's unique approach. The key is the know-how to deeply understand the characteristics of each domain and quickly develop a small language model that fits it. And most importantly, it is characterized by the fact that it values the process of acquiring domain knowledge through thorough consulting with customers.
S2W, which started out as a dark web analysis company in 2018, has grown into an AI company that analyzes big data from various industries, thanks to this meticulous technical approach and continuous domain learning. The technical assets that S2W has accumulated since starting in the security field are actually serving as a greater competitive edge in the AI era. The true core hidden behind the somewhat complicated name of multi-domain cross-analysis is ultimately the persistent effort to implement 'AI that thinks like a human.'
ダークウェブで積み重ねたデータ分析技術を拡張して産業用AIを実現するS2W
– ダークウェブで積み上げた能力を産業に適用…昨年、産業用AIソリューション「SAIP」ソリューションをリリース
– マルチドメインクロス分析でセキュリティから製造・金融までドメイン特化AIを実現
-単純な質疑応答を超えて意思決定支援するエージェントAIで技術開発中
ダークウェブ専門企業で始まったエスツーダブル油(S2W、以下S2W)が昨年「SAIP(S2W AI Platform)」という産業用生成型AIプラットフォームを発売し、事業領域を拡大している。
ダークウェブは、一般的なインターネットブラウザではアクセスできない暗号化されたネットワークを意味します。麻薬取引、ハッキング、ランサムウェアなど各種サイバー犯罪が頻発するところだ。そのため、ダークウェブのデータは一般的なウェブデータとは異なり複雑です。特別なブラウザでアクセスする必要があります。ネットワーク構造も非常に不安定であり、追跡を避けるために意図的に複雑な言語を使用しています。データのノイズ比も非常に高い。データ間の隠された関係を見つけることも難しく、情報は非常に急速に変化して消滅します。
このような特性のため、ほとんどの企業がアプローチすら難しくなるダークウェブ領域で、S2Wは「ザビス」と「クエーサー」というダークウェブ専門ソリューションを開発した。ダークウェブの膨大で複雑な非定型データを収集し、データ間の意味を発見して関係を追跡するS2Wは「マルチドメインクロス分析技術」を開発した。
マルチドメインクロス分析技術は、異なる領域(ドメイン)のデータを統合して分析する技術であり、単一ドメインでは発見しにくいパターンやインサイトを導出することができる。例えば、サイバーセキュリティ分野ではネットワークトラフィックデータ、ユーザー行動データ、システムログデータなどをクロス分析して単一のデータソースでは検出しにくい高度化された脅威を識別することができ、金融分野では取引データ、顧客行動データ、外部市場データを組み合わせてより正確なリスク評価や詐欺検出が可能である。この技術は、AIとビッグデータ分析技術を利用してドメイン間の相関関係を見つけ、個々のドメイン分析と比較してはるかに高い精度と包括的な分析結果を提供します。
ダークウェブで積み上げた技術力量を一般産業に適用、SAIP(S2W AI Platform)発売
ダークウェブで蓄積した技術を一般企業が使用できるように開発したソリューションが「SAIP(S2W AI Platform)」だ。 SAIPは2024年2月に発売した産業用生成型AIプラットフォームで、企業内部のすべてのデータをChatGPTのように対話型に活用できるようにしてくれ、セキュリティと精度を大幅に強化したシステムだ。
SAIPの最大の特徴は、「セキュリティガードレール」というセキュリティシステムです。一般的なChatGPTや他のAIは時々間違った情報を提供したり機密情報を漏洩したりする可能性がありますが、SAIPは企業データを安全に保護しながら正確な答えを提供します。また、職級に応じてアクセスできる情報を差分化して設定することができ、人事資料などの機密情報は、許可を受けた人だけが閲覧できる。さらに、SAIPは、汎用的なソリューションを提供する他のAI企業とは異なり、各企業のドメインを深く理解し、カスタマイズされたソリューションを提供しています。
ダークウェブという最も難しい環境から始まり、今ではすべての産業のデータ分析を担当するAI企業に成長したS2Wの旅は、特殊な技術が汎用技術に拡張される革新の代表的な事例といえる。
京畿道城南市板橋S2W本社でパク・グンテCTOとチョン・ジヌAI総括理事に会った。パク・グンテCTOはKAISTで博士課程を終え、韓国電子通信研究院(ETRI)で分散システム開発を、ティマックスソフトでOS開発を担当した。その後SKテレコムで12年間ビッグデータとAI業務を遂行した。ビッグデータ、AI研究を大企業ではなくスタートアップで実装したいという考えに、2022年にS2Wに合流した。
チョン・ジヌAI総括理事はKAISTで修博士の過程で自然語処理(NLP)を専攻し、サムスン電子総合技術院でモバイル機械翻訳と素材科学論文情報抽出を研究した。特にデータ処理に関心が多いチョン・ジヌ理事は自然言語処理を通じてダークウェブの情報を処理することに興味を感じ、2020年に合流した。
S2Wで技術を総括するパク・グンテCTOとチョン・ジヌAI総括理事を通じて膨大な資料から希望するデータを収集する技術、ドメイン別カスタム言語モデル、関係性をグラフに結びつける知識グラフなど3つのコア技術とこれを元にした産業用生成型AIプラットフォーム「SAIP(S2W AI Platform)」が注目されている。 (専門的な技術を正確に伝えるためにQ&A形式で内容を構成した。)
Q. S2Wがセキュリティで起動しました。長所と差別点があるようです。
パク・グンテCTO:S2Wは「セキュリティ+データ」企業として定義できます。 AI時代になり、従来とは全く異なる性格のデータがAIシステムに流入しています。特に個人情報と密接な関連がある機密データがAI学習とサービス運営に大量に活用され、データの重要性とセキュリティ性がこれまで以上に重要な時代となりました。

AIサービスをうまく実装するには、セキュリティ専門家の役割が不可欠であり、セキュリティの深い理解が必要です。特に、外部データと内部データを融合して活用する過程で、セキュリティがより重要になります。金融分野では、厳しい規制環境下で大量の機密データを処理する必要があります。したがって、AIサービスを開発する際のセキュリティ要件を正確に特定し、設計段階から反映することが不可欠です。
セキュリティに基づいて始まったのがS2Wのコア競争力であると言えます。
Q. 「マルチドメインクロス分析技術」とは、異なる領域のデータを統合して分析する技術で、単一ドメインでは発見しにくいパターンやインサイトを導出することができます。 S2Wは、ダークウェブの専門ソリューションである「ザビス(JARVIS)」と「クエーサー(QUXAR)」にこの技術を適用して蓄積したノウハウを基に、SAIPにもこれを発展させて適用しました。マルチドメインクロス分析技術がどのような技術かを説明してください
パク・グンテCTO:どの企業や機関にも根本的な問題があります。企業を成長させたりリスクから抜け出すためには、企業内の最高の専門家が集まり、利用可能なすべての情報を収集した後、各専門家が自分の見解を提示し、議論を通じて問題を解決します。このプロセスをAIが実行できるように技術化したのが、マルチドメインクロス分析技術です。
チョン・ジヌAI総括取締役:具体的には3つの技術が結合されています。 1つ目はデータ収集技術、2つ目はドメイン特化言語モデル技術、3つ目はオントロジーベースの知識グラフ技術です。

Q. マルチドメイン交差分析に3つの技術があると言われましたが、中でもデータ収集技術が重要なようですね。 S2Wソリューションはどのようにデータを収集しますか?
パク・グンテCTO:S2Wが扱うのは社内データだけでなく、社外のすべてのデータです。データ形式もさまざまです。 Excelファイル、写真、Webデータ、政府公共機関の法令資料まで、あらゆる形態のデータを収集します。 S2Wは、ダークウェブや戦場環境のように、ネットワークの変化が激しくなったり、情報が一時的に登場したり消えたりするデータを安定的かつ効果的に収集することができます。
チョン・ジヌAI総括取締役:最も重要なのは「ジプラギで針を探す技術」です。 Web上の関心のあるデータは、インターネット上のすべてのデータを考慮するときに本当にジフラーで針を見つけるのと同じです。すべてをすべて収集すると費用に極めて非効率的であるため、収集段階から言語モデルを活用します。たとえば、ダークウェブデータの半分以上がポルノです。しかし、50%の確率であれば、一度保存した後、より洗練された言語モデルに再分類します。
現在、S2Wは月に千万個程度のウェブページを判別しています。これをすべてサーバーに保存することはできないため、段階的に言語モデルを適用して必要なデータのみを選別することです。
Q. 必要なデータを収集するためには、ドメイン特化言語モデルが必要であると言われましたが、ではドメイン特化言語モデルをどのようにそのように早く作成して適用できますか?
チョン・ジヌAI総括取締役:ある言語モデルが他の分野に適用されるとパフォーマンスが低下します。ポルノ判別モデルは金融分野では使用できません。そのため、ドメイン特化が必要ですが、特にモデルサイズが小さい場合にはさらに重要です。 ChatGPTのような巨大言語モデルはそれ自体優れた性能を示していますが、データが多い場合は大きなモデルを使用できません。リアルタイムに分類するには小さなモデルを使用する必要があります。そのためには、そのドメインに高度に特化したモデルが必要です。
パク・グンテCTO:顧客データを受け取ると、どの程度規模の言語モデルにどのデータを投入しなければならないかを非常に迅速に把握できます。そのため、他の競合他社よりも最適規模の言語モデルを迅速に構築でき、プロジェクトを非常に迅速に行うことができます。
Q. ドメイン特化モデルを作成するにはドメインを知る必要があるようですね。ドメインについてどうやって理解できますか?
チョン・ジヌAI総括理事:もし野球というドメインに対して言語モデルを開発するとしたら、野球を知る必要があります。そのため、S2Wは顧客との初期段階でコンサルティングを多く進めています。これを見落とす企業が多いのですが、通常、他の企業は「私たちのモデル一つになれます」と言います。私はそれが不可能だと思います。 S2Wが成果を上げることができた理由は、ダークウェブで多くの経験を積んだからです。ドメインの専門家と話し合って、カテゴリや特徴を非常に迅速かつ正確に抽出する作業を行います。
パク・グンテCTO:規模が非常に大きいH社プロジェクトも5ヶ月で完了しました。初期段階で1ヶ月程度をコンサルティングに投入しました。このとき、ドメインの専門家の役割は非常に重要です。
Q.最後に知識グラフ技術と知識グラフ技術をどのように活用するか説明してください。
チョン・ジヌAI総括取締役:知識グラフはノード(点)とエッジ(線)で構成されています。円のような円が複数あり、それ間の関係を線で描いたのが知識グラフです。構造化の最終段階が収集データをグラフ化することです。関係をきちんと把握するにはグラフで作らなければなりません。
S2Wはダークウェブで犯罪を追跡する際に知識グラフ技術を活用し始めました。犯罪追跡では、何よりも関係情報が重要だからです。たとえば、あるハッカーがダークウェブに企業情報を奪取して「OO資料いくらにポップします。テレグラムで会話しよう」という投稿を上げたとしましょう。 S2Wはその投稿からテレグラムIDを重要な特徴に抽出し、他のダークウェブサイトやプラットフォームで同じテレグラムIDを使用したケースを探索して2つをリンクします。犯罪者がビットコインアドレスも一緒に残した場合、これを別のノードに設定してテレグラムIDと関連付け、そのビットコインアドレスから他のアドレスへの送金履歴も従います。ビットコイン取引情報はブロックチェーンの特性上公開されており、追跡が可能なためです。このようにグラフにつなげると、最初の投稿を投稿した人のテレグラムIDからビットコインアドレスまでつながり、この犯罪者が最終的にどの取引所で現金化したかまで把握できます。このように、関係情報が重要な犯罪捜査領域で様々な識別子間の関連性を体系的に追跡することがまさに知識グラフ技術です。
Q. マルチドメインクロス分析技術、すなわちデータ収集技術、ドメイン特化言語モデル技術、オントロジーベースの知識グラフ技術について話しました。それでは、これらの技術はSAIPにどのように適用されていますか?
チョン・ジヌAI総括取締役:S2WがH社とL社にSAIPソリューションを構築しました。ユーザーが質問すると答えを提供する方法ですが、両方の会社の特徴が異なります。
H社は、複数の業務ポータルに分散していた13万件の社内文書を統合し、ユーザーが音声で質問すると、関連データを素早く検索して希望の回答を提供するチャットボットを構築しました。このプロジェクトの重要な価値は、データ統合とアクセシビリティの向上にあります。従来は安全データを探すには安全ポータルに、設備データを探すには設備ポータルにそれぞれ接続しなければなりませんでしたが、安全担当者でも設備分野に慣れていなければ設備ポータルにアクセスしにくい状況でした。しかし、新しい統合システムでは、「これらの施設に関する安全に関するガイドラインを教えてください」と要求すると、施設ポータルに直接アクセスする必要なく、すぐに関連情報を提供することができました。
チョン・ジヌAI総括取締役:L社トレンド分析ソリューションは、L社系列会社の購買データを活用して市場変化を分析するシステムです。例えば酒類販売量が急増した時、単に数値だけを確認するのではなく、その原因をニュース記事やSNSなど外部データから関連現象を検出して総合的な分析報告書を作成して提供します。具体的に、ホンス族の購入量が急激に増加した場合、外部データを収集して精製し分析し、「ホンス族が増加した原因は以下の通り」という結果を導き出して報告書で製作します。以前は、従業員が手作業で行った複雑なトレンド分析業務をS2Wが自動化し、効率性と精度を大幅に向上させていました。
Q.ダークウェブから始めて、今では産業に事業を拡大していますが、今後どのような産業に拡張する計画ですか?
チョン・ジヌAI総括理事:パランティアも過去にCIAと安保・セキュリティ分野で始まり、今はすべての企業領域に拡張しました。方法論が体系的に構築されていれば拡張がより容易になるようです。現在、金融分野と防衛分野を優先的に検討しています。
パク・グンテCTO:しかし、これまで蓄積された資産を活用して広く拡大するよりも、垂直的により深く構築することを優先的に考慮する計画です。企業ごとのカスタマイジングは必須要素であり、鉄鋼業と流通業が異なる特性を持っており、同じ鉄鋼業者であってもそれぞれ固有の特徴があるため、オーダーメイドのアプローチがより効果的であると判断しています。したがって、成果が検証された分野中心に重みを置いて事業を進める計画です。
Q. 技術も引き続き高度化させたいと思いますが、具体的にどの方向に発展させる計画ですか?
パク・グンテCTO:テキスト中心からマルチモーダル(画像、動画、音声)に発展しようとしています。セキュリティ分野は内部に専門家集団があり、AI適用レベルが他の分野より高い方です。高度なセキュリティレポートを作成できる専門スタッフが内部にあるため、AI学習に活用できるデータの品質が非常に高いという利点があります。
チョン・ジヌAI総括取締役:エージェントは、意思決定に実質的に役立つ結論を提示することができなければなりません。単純な質問回答レベルを超えて専門家が作成したレポートレベルの高度な結論を導き出すAIを実装することがS2Wエージェントの指向点です。

あらゆる企業の意思決定を支援するAIソリューションに拡張
S2Wだけの差別化されたアプローチを確認することができた。各ドメインの特性を深く理解し、それに合った小型言語モデルを迅速に開発するノウハウが核心だ。そして何よりも顧客との徹底したコンサルティングを通じてドメイン知識を習得する過程を重視するという点が特徴的だ。
2018年にダークウェブ分析で始まったS2Wが、今や様々な産業のビッグデータを分析するAI企業に成長した背景には、このような緻密な技術的アプローチと継続的なドメイン学習があった。 S2Wがセキュリティ分野で始まり蓄積した技術的資産がAI時代にむしろより大きな競争力で作用している状況だ。マルチドメイン交差分析というやや複雑な名称の後に隠された真の核心は、結局「人のように思考するAI」を実装しようとする粘り強い努力だった。
S2W 扩展暗网积累的数据分析技术,实现工业 AI
– 将暗网积累的能力应用于行业……去年推出行业AI解决方案“SAIP”
– 通过多领域交叉分析,实现从安全到制造、金融等特定领域的人工智能
– 开发超越简单问答的代理 AI 决策支持技术
S2W(以下简称S2W)以暗网专营公司起家,去年推出名为“SAIP(S2W AI Platform)”的产业生成AI平台,扩大事业领域。
暗网是指无法使用普通互联网浏览器访问的加密网络。它是贩毒、黑客攻击、勒索软件等各种网络犯罪频发的场所。因此,暗网上的数据与普通网络数据不同,非常复杂,必须使用专用浏览器访问。暗网的网络结构也非常不稳定,为了逃避追踪,人们会故意使用复杂的语言。数据的噪声比也非常高。数据之间隐藏的关系难以发现,信息变化和消失的速度也非常快。
针对这些特点,S2W针对大多数企业难以触及的暗网领域,开发了名为“Jarvis”和“Quasar”的暗网专用解决方案。S2W开发了“多领域交叉分析技术”,用于收集暗网海量复杂的非结构化数据,挖掘数据之间的含义,并追踪其关联性。
多领域交叉分析技术是一种整合分析不同领域数据的技术,能够从中获取单一领域难以发现的模式或洞察。例如,在网络安全领域,可以交叉分析网络流量数据、用户行为数据和系统日志数据,以识别单一数据源难以检测到的高级威胁;在金融领域,可以结合交易数据、客户行为数据和外部市场数据,实现更精准的风险评估或欺诈检测。该技术利用人工智能和大数据分析技术发现领域之间的关联,提供比单一领域分析更高的准确性和更全面的分析结果。
将暗网积累的技术能力应用于一般行业,推出SAIP(S2W AI平台)
为了让普通企业也能利用暗网上积累的技术,开发的解决方案是“SAIP(S2W AI Platform)”。SAIP是2024年2月推出的产业用生成AI平台,它允许以类似ChatGPT的对话方式使用企业内部的所有数据,同时大幅提升了安全性和准确性的系统。
SAIP 最大的特点是名为“安全护栏”的安全系统。一般的 ChatGPT 或其他 AI 有时会提供错误信息或存在泄露敏感信息的风险,而 SAIP 则在提供准确答案的同时,安全地保护企业数据。此外,SAIP 可以区分和设置可访问的信息,并根据职位进行设置,以便只有获得授权的人员才能查看人事数据等敏感信息。此外,与其他提供通用解决方案的 AI 公司不同,SAIP 深入了解每个公司的领域,并提供定制化解决方案。
S2W 从最艰难的暗网环境起步,到如今发展成为一家处理所有行业数据分析的人工智能公司,是专业技术扩展为通用技术的创新典范。
我们在位于京畿道城南市板桥的S2W总部见到了CTO朴根泰和AI总监郑镇宇。CTO朴根泰在韩国科学技术院(KAIST)获得博士学位,之后在韩国电子通信研究院(ETRI)从事分布式系统开发,并在TmaxSoft从事操作系统开发。之后,他在SK Telecom从事大数据和AI研究长达12年。他于2022年加入S2W,因为他希望在一家初创公司而非大型企业开展大数据和AI研究。
AI总经理Jinwoo Jeong在韩国科学技术院(KAIST)攻读硕士和博士学位期间,主修自然语言处理(NLP),并在三星综合技术学院学习了移动机器翻译和材料科学论文信息提取。Jinwoo Jeong主任对数据处理有着浓厚的兴趣,并于2020年加入该公司,此前他曾对利用自然语言处理技术处理暗网信息感兴趣。
我们采访了S2W技术担当CTO的朴根泰和AI总监郑振宇,听取了从海量数据中收集所需数据的技术、针对各领域的定制化语言模型、将关系连接成图谱的知识图谱等三大核心技术,以及基于这些技术的产业生成AI平台“SAIP(S2W AI平台)”备受关注的原因。(为了准确传达专业技术,内容采用问答形式。)
问:S2W 从安全性入手。我认为它有优势,也有不同之处。
CTO朴根泰:S2W可以定义为一家“安全+数据”的公司。在AI时代,与以往完全不同性质的数据正在涌入AI系统。特别是,随着与个人信息密切相关的敏感数据被大量用于AI学习和服务运营,数据的重要性和安全性变得比以往任何时候都更加重要。

为了成功实施AI服务,安全专家的作用至关重要,因此需要对安全性有深入的理解。尤其是在整合和利用内部和外部数据的过程中,安全性显得尤为重要。在金融领域,必须在严格的监管环境下处理大量敏感数据。因此,在开发AI服务时,准确识别安全需求并从设计阶段就体现出来至关重要。
可以说,S2W的核心竞争力是从安全基础出发的。
问:“多领域交叉分析技术”是一种整合并分析不同领域数据的技术,可以发现单一领域难以发现的模式或洞察。S2W已将该技术应用于专门的暗网解决方案“JARVIS”和“QUXAR”,并基于积累的专业知识,将其开发并应用于SAIP。请您解释一下什么是“多领域交叉分析技术”。
朴根泰首席技术官:任何公司或组织都存在根本性的问题。为了发展公司或规避风险,公司最优秀的专家会聚集在一起,收集所有可用的信息,然后每位专家都会提出自己的观点,并讨论解决问题的方法。使人工智能能够执行这一过程的技术是多领域交叉分析技术。
AI总经理郑镇宇:具体来说,是三种技术的结合,第一是数据收集技术,第二是领域特定语言模型技术,第三是基于本体的知识图谱技术。

问:您说多领域交叉分析有三种技术,但其中数据收集技术似乎是最重要的。S2W解决方案是如何收集数据的呢?
朴根泰首席技术官:S2W 不仅处理内部数据,还处理所有外部数据。数据类型也非常多样化。我们收集各种类型的数据,包括 Excel 文件、照片、网络数据以及政府公共机构的法律数据。即使在网络变化剧烈或信息短暂出现和消失的暗网或战场环境中,S2W 也能可靠有效地收集数据。
AI总经理郑镇宇:最重要的是“大海捞针”技术。在互联网上寻找感兴趣的数据就像大海捞针。收集所有数据的成本极其低廉,因此我们从收集阶段就开始使用语言模型。例如,超过一半的暗网数据是色情内容,如果我们确定其概率为99.9%,就会立即丢弃。但是,如果概率为50%,我们会暂时存储它,并使用更复杂的语言模型对其进行重新分类。
目前,S2W 每月识别约 1000 万个网页。由于我们的服务器无法存储所有网页数据,因此我们会逐步应用语言模型,只筛选出必要的数据。
问:您说过,特定领域语言模型对于收集必要的数据至关重要。那么,如何才能如此快速地创建和应用特定领域语言模型呢?
AI 总经理郑镇宇:如果将语言模型应用于其他领域,其性能会下降。例如,色情检测模型无法应用于金融领域。因此,领域专业化至关重要,尤其是在模型规模较小的情况下。像 ChatGPT 这样的大型语言模型本身就表现出色,但当数据量巨大时,大型模型就无法满足需求。如果要进行实时分类,则需要使用小型模型,而为此,您需要一个针对该领域高度专业化的模型。
CTO 朴根泰:当我们收到客户数据时,我们可以非常快速地确定需要将哪些数据输入到一定规模的语言模型中才能使其发挥作用。因此,我们能够比其他竞争对手更快地构建最佳规模的语言模型,并快速开展项目。
问:我认为你需要了解领域才能创建特定领域的模型。你对领域了解多少?
AI 总经理郑镇宇:如果你开发棒球领域的语言模型,你就必须了解棒球。这就是为什么 S2W 在早期阶段会与客户进行大量咨询的原因。许多公司忽视了这一点,而其他公司通常会说:“我们的模型就是你所需要的一切。” 我认为这是不可能的。S2W 之所以能够取得成功,是因为我们在暗网领域拥有丰富的经验。我们与领域专家进行讨论,并快速准确地提取类别和特征。
CTO朴根泰:我们仅用了5个月就完成了H公司这个非常大规模的项目。前期我们大概用了一个月的时间进行咨询。这个时候,领域专家的作用就非常重要了。
问:最后,请解释一下知识图谱技术以及如何利用它。
AI总经理郑镇宇:知识图谱由节点(点)和边(线)组成。知识图谱由多个圆圈组成,圆圈之间用线连接以表示关系。构建的最后阶段是将收集到的数据以图的形式表达出来。为了正确理解关系,必须创建图谱。
S2W 开始使用知识图谱技术追踪暗网上的犯罪活动。这是因为关系信息是犯罪追踪的关键。例如,假设一名黑客在暗网上窃取了公司信息,并发布了“OO 数据以这个价格出售。我们在 Telegram 上聊聊吧”的帖子。S2W 会从帖子中提取 Telegram ID 作为关键特征,搜索在其他暗网或平台上使用相同 Telegram ID 的案例,并将两者关联起来。如果犯罪分子还留下了比特币地址,它会将其设置为另一个节点并将其连接到 Telegram ID,同时追踪从该比特币地址到另一个地址的转账记录。这是因为由于区块链的特性,比特币交易信息是公开的,因此可以被追踪。如果以这种方式将其关联成图谱,就可以将第一个发布帖子的人的 Telegram ID 与比特币地址关联起来,甚至可以找出犯罪分子最终在哪个交易所套现。知识图谱技术系统地追踪犯罪调查领域中各种标识符之间的联系,而关系信息非常重要。
问:我们之前听说过多领域交叉分析技术,比如数据采集技术、领域特定语言模型技术、基于本体的知识图谱技术,那么这些技术在SAIP中是如何应用的呢?
AI总经理郑镇宇:S2W为H公司和L公司构建了SAIP解决方案,是一种在用户提出问题时提供答案的方法,但两家公司的特点有所不同。
H公司整合了分散在多个业务门户的13万份内部文档,并构建了一个聊天机器人,该机器人可以快速搜索相关数据,并在用户通过语音提问时提供所需的答案。该项目的核心价值在于数据集成和更高的可访问性。以前,要查找安全数据,必须访问安全门户;要查找设施数据,则必须单独访问设施门户。即使对于不熟悉设施领域的安全经理来说,访问设施门户也很困难。但是,有了新的集成系统,如果您询问“请告诉我与该设施相关的安全指南”,无需直接访问设施门户,即可立即收到相关信息。
AI总经理郑镇宇表示:L公司的趋势分析解决方案是一个利用L公司关联公司购买数据来分析市场变化的系统。例如,当酒类销售额激增时,我们不会简单地核对数字,而是从新闻报道或社交媒体等外部数据中发现相关现象,并创建综合分析报告。具体来说,如果单独饮酒者的购买量急剧增加,我们会收集、提炼和分析外部数据,得出“单独饮酒者增加的原因如下”这一结论并生成报告。S2W将过去由员工手动完成的复杂趋势分析工作自动化,大幅提高了效率和准确性。
问:你们最初从事暗网业务,现在正在向行业扩展。未来你们计划进军哪些行业?
AI总经理郑镇宇:Palantir最初也是从中央情报局(CIA)和安全领域起步的,但现在已经扩展到所有企业领域。我认为,当方法论系统性地建立起来后,扩展会更容易。我们目前正在审查金融和国防领域,将其作为我们的首要任务。
朴根泰首席技术官:不过,我们计划优先进行垂直深度建设,而不是利用现有积累的资产进行大规模扩张。定制化对于每家公司来说都至关重要,而钢铁行业和流通行业各有特点,即使在同一家钢铁公司内部,也各有其独特之处,因此我们认为定制化方法更为有效。因此,我们计划专注于已取得成效的领域开展业务。
问:看来技术需要不断进步。您计划朝哪个具体方向发展呢?
首席技术官朴根泰:我们正努力从以文本为中心向多模态(图像、视频、语音)演进。安全领域内部拥有一批专家,因此人工智能的应用水平高于其他领域。由于我们内部拥有能够撰写高级安全报告的专家,我们拥有可用于人工智能学习的高质量数据的优势。
AI总经理郑镇宇:智能体必须能够提供真正有助于决策的结论。S2W智能体的目标是实现超越简单问答的AI,能够生成专家级报告水平的高级结论。

扩展到帮助每个企业做出决策的人工智能解决方案
我们确认了S2W的独特方法。其关键在于深刻理解各领域特性,并快速开发出适合该领域的小型语言模型的诀窍。最重要的是,其特点是通过与客户进行充分沟通,从而获取领域知识。
S2W 于 2018 年以暗网分析公司起步,凭借其严谨的技术方法和持续的领域学习,如今已发展成为一家分析各行业大数据的 AI 公司。S2W 自安全领域起步以来积累的技术资产,如今正成为 AI 时代更强大的竞争力。“多领域交叉分析”这个略显复杂的名称背后,隐藏的真正核心,最终是为实现“像人类一样思考的 AI”而不懈努力。
S2W étend sa technologie d'analyse de données accumulées sur le dark web pour mettre en œuvre l'IA industrielle
– Appliquer les capacités accumulées sur le dark web à l'industrie… Lancement de la solution d'IA industrielle « SAIP » l'année dernière
– Mettre en œuvre une IA spécifique à un domaine, de la sécurité à la fabrication et à la finance, grâce à une analyse croisée multi-domaines
– Développer une technologie pour soutenir la prise de décision grâce à l'IA des agents au-delà des simples questions-réponses
S2W (ci-après dénommée S2W), qui a débuté en tant que société spécialisée dans le dark web, étend son domaine d'activité en lançant l'année dernière une plate-forme d'IA générative industrielle appelée « SAIP (S2W AI Platform) ».
Le dark web est un réseau chiffré inaccessible via un navigateur internet classique. C'est un lieu où se produisent fréquemment diverses cybercriminalités, telles que le trafic de drogue, le piratage informatique et les rançongiciels. Par conséquent, les données présentes sur le dark web sont complexes, contrairement aux données du web classique. Elles doivent être consultées via un navigateur spécifique. La structure du réseau est également très instable, et un langage complexe est utilisé intentionnellement pour éviter le suivi. Le taux de bruit des données est également très élevé. Il est difficile de découvrir les relations cachées entre les données, et les informations changent et disparaissent très rapidement.
Fort de ces caractéristiques, S2W a développé des solutions spécialisées pour le dark web, appelées « Jarvis » et « Quasar », dans la zone du dark web difficile d'accès pour la plupart des entreprises. S2W a développé une technologie d'analyse croisée multi-domaines pour collecter les données non structurées, vastes et complexes, du dark web, en extraire la signification et en suivre les relations.
La technologie d'analyse croisée multi-domaines intègre et analyse des données provenant de différents domaines et permet d'en dégager des tendances ou des informations difficiles à identifier dans un seul domaine. Par exemple, dans le domaine de la cybersécurité, les données de trafic réseau, de comportement des utilisateurs et de journal système peuvent être analysées de manière croisée pour identifier les menaces avancées difficiles à détecter avec une source unique. Dans le domaine financier, les données de transaction, de comportement des clients et de marché externe peuvent être combinées pour permettre une évaluation des risques ou une détection des fraudes plus précise. Cette technologie utilise l'IA et des techniques d'analyse du Big Data pour identifier les corrélations entre les domaines et offre des résultats d'analyse bien plus précis et exhaustifs que l'analyse par domaine individuel.
Application des capacités techniques accumulées sur le dark web aux industries générales, lancement de SAIP (S2W AI Platform)
La solution développée pour permettre aux entreprises d'exploiter la technologie accumulée sur le dark web est « SAIP (S2W AI Platform) ». SAIP est une plateforme d'IA générative industrielle lancée en février 2024. Elle permet d'utiliser toutes les données d'une entreprise de manière conversationnelle, à l'instar de ChatGPT, tout en améliorant considérablement la sécurité et la précision.
La principale caractéristique de SAIP est son système de sécurité appelé « Security Guardrail ». Alors que ChatGPT ou d'autres IA peuvent parfois fournir des informations erronées ou risquer de divulguer des informations sensibles, SAIP protège les données de l'entreprise en toute sécurité et ne fournit que des réponses exactes. De plus, les informations accessibles peuvent être différenciées et définies en fonction du poste, de sorte que seules les personnes autorisées peuvent consulter les informations sensibles, telles que les données personnelles. De plus, contrairement à d'autres entreprises d'IA proposant des solutions générales, SAIP comprend parfaitement le domaine d'activité de chaque entreprise et propose des solutions sur mesure.
Le parcours de S2W, depuis ses débuts dans l’environnement le plus difficile connu sous le nom de dark web jusqu’à sa croissance actuelle en tant qu’entreprise d’IA qui gère l’analyse de données dans tous les secteurs, est un excellent exemple d’innovation où les technologies spécialisées se transforment en technologies à usage général.
Nous avons rencontré Park Geun-tae, directeur technique, et Jeong Jin-woo, directeur de l'IA, au siège de S2W à Pangyo, Seongnam-si, Gyeonggi-do. Park Geun-tae, directeur technique, a obtenu son doctorat au KAIST et a travaillé sur le développement de systèmes distribués à l'Institut de recherche en électronique et télécommunications (ETRI) et sur le développement de systèmes d'exploitation chez TmaxSoft. Il a ensuite travaillé sur le Big Data et l'IA chez SK Telecom pendant 12 ans. Il a rejoint S2W en 2022 car il souhaitait mettre en œuvre la recherche sur le Big Data et l'IA dans une startup plutôt que dans une grande entreprise.
Jinwoo Jeong, directeur général d'AI, s'est spécialisé en traitement automatique du langage naturel (TALN) lors de ses études de master et de doctorat au KAIST. Il a également étudié la traduction automatique mobile et l'extraction d'informations issues d'articles en science des matériaux au Samsung Advanced Institute of Technology. Particulièrement intéressé par le traitement des données, Jinwoo Jeong a rejoint l'entreprise en 2020 après s'être intéressé au traitement des informations sur le dark web grâce au traitement automatique du langage naturel.
Park Geun-tae, directeur technique et responsable de la technologie chez S2W, et Jeong Jin-woo, directeur de l'IA, nous ont présenté les trois technologies clés, notamment la technologie permettant de collecter les données souhaitées à partir de données massives, un modèle de langage personnalisé pour chaque domaine et un graphe de connaissances reliant les relations. Ils nous ont également expliqué pourquoi la plateforme d'IA générative industrielle « SAIP (S2W AI Platform) » basée sur ces technologies suscite autant d'intérêt. (Le contenu était organisé sous forme de questions-réponses afin de présenter avec précision les technologies professionnelles.)
Q. S2W a commencé par la sécurité. Je pense qu'il y a des avantages et des différences.
Park Geun-tae, directeur technique : S2W peut être définie comme une entreprise « sécurité et données ». À l'ère de l'IA, des données d'une nature totalement différente alimentent les systèmes d'IA. En particulier, alors que des données sensibles, étroitement liées aux informations personnelles, sont utilisées en grande quantité pour l'apprentissage de l'IA et le fonctionnement des services, l'importance et la sécurité des données sont devenues plus cruciales que jamais.

Pour réussir la mise en œuvre de services d'IA, le rôle des experts en sécurité est essentiel et, par conséquent, une compréhension approfondie de la sécurité est requise. La sécurité devient particulièrement importante lors de la combinaison et de l'exploitation de données externes et internes. Dans le secteur financier, de grandes quantités de données sensibles doivent être traitées dans un environnement réglementaire strict. Il est donc essentiel d'identifier précisément les exigences de sécurité lors du développement de services d'IA et de les intégrer dès la conception.
On peut dire que la compétitivité principale de S2W réside dans le fait qu’elle est partie d’une base basée sur la sécurité.
Q. La technologie d'analyse croisée multidomaine intègre et analyse des données provenant de différents domaines, permettant ainsi d'identifier des tendances ou des informations difficiles à identifier dans un seul domaine. S2W a appliqué cette technologie à JARVIS et QUXAR, des solutions spécialisées pour le dark web, et l'a développée et appliquée à SAIP en s'appuyant sur son savoir-faire. Veuillez expliquer ce qu'est la technologie d'analyse croisée multidomaine.
Park Geun-tae, directeur technique : Toute entreprise ou organisation est confrontée à des problèmes fondamentaux. Pour développer l'entreprise ou éviter les risques, les meilleurs experts se réunissent, collectent toutes les informations disponibles, puis chacun présente son avis et discute du problème pour le résoudre. La technologie qui permet à l'IA d'effectuer ce processus est l'analyse croisée multi-domaines.
Jeong Jin-woo, directeur général de l'IA : Il s'agit plus précisément d'une combinaison de trois technologies : la première est la collecte de données, la deuxième est la modélisation linguistique spécifique à un domaine, et la troisième est la technologie des graphes de connaissances basés sur des ontologies.

Q. Vous avez mentionné qu'il existe trois technologies pour l'analyse croisée multi-domaines, mais que parmi elles, la technologie de collecte de données semble être la plus importante. Comment les solutions S2W collectent-elles les données ?
Park Geun-tae, directeur technique : S2W gère non seulement les données internes, mais aussi toutes les données externes. Les types de données sont également variés. Nous collectons tous types de données, y compris des fichiers Excel, des photos, des données web et des données juridiques d'organismes publics. S2W peut collecter des données de manière fiable et efficace sur le dark web ou dans des environnements de combat où les changements de réseau sont importants ou où des informations apparaissent et disparaissent temporairement.
Jung Jin-woo, directeur général de l'IA : Le plus important est la technologie de l'aiguille dans une botte de foin. Sur le web, chercher des données intéressantes revient à chercher une aiguille dans une botte de foin. Il est extrêmement coûteux de tout collecter ; c'est pourquoi nous utilisons des modèles linguistiques dès la collecte. Par exemple, plus de la moitié des données du dark web sont de la pornographie. Si nous déterminons qu'il s'agit de pornographie avec une probabilité de 99,9 %, nous les supprimons immédiatement. En revanche, si la probabilité est de 50 %, nous les conservons temporairement et les reclassons à l'aide d'un modèle linguistique plus sophistiqué.
Actuellement, S2W identifie environ 10 millions de pages web par mois. Comme nous ne pouvons pas toutes les stocker sur nos serveurs, nous appliquons des modèles linguistiques étape par étape pour sélectionner uniquement les données nécessaires.
Q. Vous avez dit que des modèles de langage spécifiques à un domaine sont nécessaires pour collecter les données nécessaires. Comment peut-on créer et appliquer des modèles de langage spécifiques à un domaine aussi rapidement ?
Jeong Jin-woo, directeur général de l'IA : Si un modèle de langage est appliqué à un autre domaine, ses performances se dégradent. Un modèle de détection de pornographie est inutilisable dans le secteur financier. C'est pourquoi la spécialisation du domaine est nécessaire, et elle est particulièrement importante lorsque la taille du modèle est réduite. Les grands modèles de langage comme ChatGPT affichent d'excellentes performances en eux-mêmes, mais avec un volume de données important, un modèle volumineux est impossible. Pour une classification en temps réel, il faut un petit modèle, et pour cela, un modèle hautement spécialisé pour le domaine.
Park Geun-tae, directeur technique : Lorsque nous recevons des données clients, nous pouvons très rapidement déterminer quelles données doivent être intégrées à un modèle linguistique d'une certaine échelle pour le faire fonctionner. Nous pouvons ainsi construire un modèle linguistique à l'échelle optimale plus rapidement que nos concurrents et mener le projet à bien dans les meilleurs délais.
Q. Je pense qu'il est nécessaire de connaître le domaine pour créer un modèle spécifique. Que comprenez-vous du domaine ?
Jung Jin-woo, Directeur général de l'IA : Pour développer un modèle linguistique pour le baseball, il est essentiel de connaître ce sport. C'est pourquoi S2W mène de nombreuses actions de conseil auprès de ses clients dès les premières étapes. Beaucoup d'entreprises négligent ce point, tandis que d'autres affirment généralement : « Notre modèle est tout ce dont vous avez besoin. » Je pense que c'est impossible. Si S2W a obtenu des résultats, c'est grâce à sa grande expérience du dark web. Nous échangeons avec des experts du domaine et extrayons les catégories et les caractéristiques très rapidement et avec précision.
Park Geun-tae, directeur technique : Nous avons mené à bien le projet de grande envergure de la société H en seulement cinq mois. Nous avons consacré environ un mois de conseil aux premières étapes. À ce stade, le rôle des experts du domaine est crucial.
Q. Enfin, veuillez expliquer la technologie des graphes de connaissances et comment l’utiliser.
Jung Jin-woo, directeur général de l'IA : Un graphe de connaissances est composé de nœuds (points) et d'arêtes (lignes). Il est constitué de plusieurs cercles, reliés par des lignes pour illustrer les relations. L'étape finale de la structuration consiste à représenter les données collectées sous forme de graphe. Pour bien comprendre les relations, il est nécessaire de créer un graphe.
S2W a commencé à utiliser la technologie des graphes de connaissances pour traquer les crimes sur le dark web. En effet, les informations relationnelles sont essentielles à ce suivi. Par exemple, imaginons qu'un pirate informatique ait volé des informations d'entreprise sur le dark web et publié « Données OO à vendre à ce prix. Discutons sur Telegram ». S2W extrait l'identifiant Telegram comme élément clé de la publication, recherche les cas où ce même identifiant a été utilisé sur d'autres sites ou plateformes du dark web et relie les deux. Si le criminel a également laissé une adresse Bitcoin, il la définit comme un autre nœud et la connecte à l'identifiant Telegram. Il suit également l'historique des transferts de cette adresse Bitcoin vers une autre adresse. En effet, les informations sur les transactions Bitcoin sont publiques en raison de la nature même de la blockchain, ce qui permet de les suivre. En les reliant sous forme de graphe, vous pouvez relier l'identifiant Telegram de la personne qui a initialement publié la publication à l'adresse Bitcoin, et même déterminer sur quelle plateforme d'échange le criminel a finalement encaissé. La technologie des graphes de connaissances suit systématiquement les liens entre différents identifiants dans le cadre d'enquêtes criminelles où les informations relationnelles sont importantes.
Q. Nous avons entendu parler des technologies d'analyse croisée multi-domaines, notamment des technologies de collecte de données, des technologies de modélisation linguistique spécifique à un domaine et des technologies de graphes de connaissances basés sur des ontologies. Comment ces technologies ont-elles été appliquées dans SAIP ?
Jung Jin-woo, directeur général de l'IA : S2W a créé des solutions SAIP pour les entreprises H et L. Il s'agit d'une méthode permettant de fournir des réponses lorsque les utilisateurs posent des questions, mais les deux entreprises ont des caractéristiques différentes.
L'entreprise H a intégré 130 000 documents internes répartis sur plusieurs portails métier et a développé un chatbot qui recherche rapidement les données pertinentes et fournit les réponses souhaitées aux questions des utilisateurs posées vocalement. Les valeurs fondamentales de ce projet sont l'intégration des données et une meilleure accessibilité. Auparavant, pour trouver des données de sécurité, il fallait accéder au portail de sécurité, et pour trouver des données sur les installations, il fallait accéder à ce portail séparément. Même les responsables sécurité peu familiarisés avec le domaine des installations avaient des difficultés à y accéder. Grâce au nouveau système intégré, si vous demandez : « Veuillez m'indiquer les consignes de sécurité relatives à cette installation », vous pouvez immédiatement obtenir les informations pertinentes sans avoir à accéder directement au portail.
Jung Jin-woo, Directeur général de l'IA : La solution d'analyse des tendances de L Company est un système qui analyse les évolutions du marché à partir des données d'achat des filiales de L Company. Par exemple, lorsque les ventes d'alcool augmentent, nous ne nous contentons pas de vérifier les chiffres, mais détectons les phénomènes connexes à partir de données externes telles que des articles de presse ou des réseaux sociaux afin de créer un rapport d'analyse complet et de le fournir. Plus précisément, si le volume d'achat des consommateurs individuels a fortement augmenté, nous collectons, affinons et analysons les données externes pour obtenir les raisons de cette augmentation et créer un rapport. S2W a automatisé le travail complexe d'analyse des tendances, auparavant effectué manuellement par les employés, améliorant ainsi considérablement l'efficacité et la précision.
Q. Vous avez débuté sur le dark web et vous vous développez désormais dans d'autres secteurs. Quels secteurs comptez-vous explorer à l'avenir ?
Jung Jin-woo, directeur général de l'IA : Palantir a également débuté dans les secteurs de la CIA et de la sécurité, mais s'est maintenant étendu à tous les secteurs d'activité. Je pense qu'il est plus facile de se développer lorsque la méthodologie est systématiquement établie. Nous considérons actuellement les secteurs de la finance et de la défense comme nos principales priorités.
Park Geun-tae, directeur technique : Cependant, plutôt que de nous développer à grande échelle en exploitant les actifs accumulés jusqu’à présent, nous prévoyons de privilégier un développement vertical plus profond. La personnalisation est un élément essentiel pour chaque entreprise. Or, l’industrie sidérurgique et le secteur de la distribution ayant des caractéristiques différentes, et même au sein d’une même entreprise sidérurgique, chacun ayant ses propres spécificités, nous pensons qu’une approche personnalisée est plus efficace. C’est pourquoi nous prévoyons de nous concentrer sur les secteurs où la performance est avérée.
Q. Il semble que la technologie doive continuer à progresser. Dans quelle direction comptez-vous la développer ?
Park Geun-tae, directeur technique : Nous cherchons à évoluer d'une approche centrée sur le texte vers une approche multimodale (image, vidéo, voix). Le domaine de la sécurité dispose d'un groupe d'experts internes, ce qui rend l'application de l'IA plus performante que dans d'autres domaines. Grâce à nos experts internes capables de rédiger des rapports de sécurité avancés, nous bénéficions de données de très haute qualité, exploitables pour l'apprentissage de l'IA.
Jung Jin-woo, directeur général de l'IA : Les agents doivent être capables de fournir des conclusions réellement utiles à la prise de décision. L'objectif de l'agent S2W est de mettre en œuvre une IA allant au-delà de la simple question-réponse pour produire des conclusions avancées, dignes de rapports d'experts.

Élargissement des solutions d'IA qui aident chaque entreprise à prendre des décisions
Nous avons pu confirmer l'approche unique de S2W. La clé réside dans son savoir-faire pour comprendre en profondeur les spécificités de chaque domaine et développer rapidement un modèle de langage adapté. Et surtout, elle se distingue par l'importance accordée à l'acquisition de connaissances métier par un conseil client approfondi.
S2W, initialement spécialisée dans l'analyse du dark web en 2018, est devenue une entreprise d'IA spécialisée dans l'analyse de big data provenant de divers secteurs, grâce à une approche technique rigoureuse et à un apprentissage continu. Les atouts techniques accumulés par S2W depuis ses débuts dans le domaine de la sécurité constituent un avantage concurrentiel majeur à l'ère de l'IA. Derrière cette appellation quelque peu complexe d'analyse croisée multi-domaines se cache en réalité l'effort constant pour mettre en œuvre une « IA qui pense comme un humain ».
You must be logged in to post a comment.