S2W 扩展暗网积累的数据分析技术,实现工业 AI

– 将暗网积累的能力应用于行业……去年推出行业AI解决方案“SAIP”

– 通过多领域交叉分析,实现从安全到制造、金融等特定领域的人工智能

– 开发超越简单问答的代理 AI 决策支持技术

S2W(以下简称S2W)以暗网专营公司起家,去年推出名为“SAIP(S2W AI Platform)”的产业生成AI平台,扩大事业领域。

暗网是指无法使用普通互联网浏览器访问的加密网络。它是贩毒、黑客攻击、勒索软件等各种网络犯罪频发的场所。因此,暗网上的数据与普通网络数据不同,非常复杂,必须使用专用浏览器访问。暗网的网络结构也非常不稳定,为了逃避追踪,人们会故意使用复杂的语言。数据的噪声比也非常高。数据之间隐藏的关系难以发现,信息变化和消失的速度也非常快。

针对这些特点,S2W针对大多数企业难以触及的暗网领域,开发了名为“Jarvis”和“Quasar”的暗网专用解决方案。S2W开发了“多领域交叉分析技术”,用于收集暗网海量复杂的非结构化数据,挖掘数据之间的含义,并追踪其关联性。

多领域交叉分析技术是一种整合分析不同领域数据的技术,能够从中获取单一领域难以发现的模式或洞察。例如,在网络安全领域,可以交叉分析网络流量数据、用户行为数据和系统日志数据,以识别单一数据源难以检测到的高级威胁;在金融领域,可以结合交易数据、客户行为数据和外部市场数据,实现更精准的风险评估或欺诈检测。该技术利用人工智能和大数据分析技术发现领域之间的关联,提供比单一领域分析更高的准确性和更全面的分析结果。

将暗网积累的技术能力应用于一般行业,推出SAIP(S2W AI平台)

为了让普通企业也能利用暗网上积累的技术,开发的解决方案是“SAIP(S2W AI Platform)”。SAIP是2024年2月推出的产业用生成AI平台,它允许以类似ChatGPT的对话方式使用企业内部的所有数据,同时大幅提升了安全性和准确性的系统。

SAIP 最大的特点是名为“安全护栏”的安全系统。一般的 ChatGPT 或其他 AI 有时会提供错误信息或存在泄露敏感信息的风险,而 SAIP 则在提供准确答案的同时,安全地保护企业数据。此外,SAIP 可以区分和设置可访问的信息,并根据职位进行设置,以便只有获得授权的人员才能查看人事数据等敏感信息。此外,与其他提供通用解决方案的 AI 公司不同,SAIP 深入了解每个公司的领域,并提供定制化解决方案。

S2W 从最艰难的暗网环境起步,到如今发展成为一家处理所有行业数据分析的人工智能公司,是专业技术扩展为通用技术的创新典范。

我们在位于京畿道城南市板桥的S2W总部见到了CTO朴根泰和AI总监郑镇宇。CTO朴根泰在韩国科学技术院(KAIST)获得博士学位,之后在韩国电子通信研究院(ETRI)从事分布式系统开发,并在TmaxSoft从事操作系统开发。之后,他在SK Telecom从事大数据和AI研究长达12年。他于2022年加入S2W,因为他希望在一家初创公司而非大型企业开展大数据和AI研究。

AI总经理Jinwoo Jeong在韩国科学技术院(KAIST)攻读硕士和博士学位期间,主修自然语言处理(NLP),并在三星综合技术学院学习了移动机器翻译和材料科学论文信息提取。Jinwoo Jeong主任对数据处理有着浓厚的兴趣,并于2020年加入该公司,此前他曾对利用自然语言处理技术处理暗网信息感兴趣。

我们采访了S2W技术担当CTO的朴根泰和AI总监郑振宇,听取了从海量数据中收集所需数据的技术、针对各领域的定制化语言模型、将关系连接成图谱的知识图谱等三大核心技术,以及基于这些技术的产业生成AI平台“SAIP(S2W AI平台)”备受关注的原因。(为了准确传达专业技术,内容采用问答形式。)

问:S2W 从安全性入手。我认为它有优势,也有不同之处。

CTO朴根泰:S2W可以定义为一家“安全+数据”的公司。在AI时代,与以往完全不同性质的数据正在涌入AI系统。特别是,随着与个人信息密切相关的敏感数据被大量用于AI学习和服务运营,数据的重要性和安全性变得比以往任何时候都更加重要。

S2W 朴槿泰 CTO

为了成功实施AI服务,安全专家的作用至关重要,因此需要对安全性有深入的理解。尤其是在整合和利用内部和外部数据的过程中,安全性显得尤为重要。在金融领域,必须在严格的监管环境下处理大量敏感数据。因此,在开发AI服务时,准确识别安全需求并从设计阶段就体现出来至关重要。

可以说,S2W的核心竞争力是从安全基础出发的。

问:“多领域交叉分析技术”是一种整合并分析不同领域数据的技术,可以发现单一领域难以发现的模式或洞察。S2W已将该技术应用于专门的暗网解决方案“JARVIS”和“QUXAR”,并基于积累的专业知识,将其开发并应用于SAIP。请您解释一下什么是“多领域交叉分析技术”。

朴根泰首席技术官:任何公司或组织都存在根本性的问题。为了发展公司或规避风险,公司最优秀的专家会聚集在一起,收集所有可用的信息,然后每位专家都会提出自己的观点,并讨论解决问题的方法。使人工智能能够执行这一过程的技术是多领域交叉分析技术。

AI总经理郑镇宇:具体来说,是三种技术的结合,第一是数据收集技术,第二是领域特定语言模型技术,第三是基于本体的知识图谱技术。

S2W Jinwoo Jeong,AI 总经理

问:您说多领域交叉分析有三种技术,但其中数据收集技术似乎是最重要的。S2W解决方案是如何收集数据的呢?

朴根泰首席技术官:S2W 不仅处理内部数据,还处理所有外部数据。数据类型也非常多样化。我们收集各种类型的数据,包括 Excel 文件、照片、网络数据以及政府公共机构的法律数据。即使在网络变化剧烈或信息短暂出现和消失的暗网或战场环境中,S2W 也能可靠有效地收集数据。

AI总经理郑镇宇:最重要的是“大海捞针”技术。在互联网上寻找感兴趣的数据就像大海捞针。收集所有数据的成本极其低廉,因此我们从收集阶段就开始使用语言模型。例如,超过一半的暗网数据是色情内容,如果我们确定其概率为99.9%,就会立即丢弃。但是,如果概率为50%,我们会暂时存储它,并使用更复杂的语言模型对其进行重新分类。

目前,S2W 每月识别约 1000 万个网页。由于我们的服务器无法存储所有网页数据,因此我们会逐步应用语言模型,只筛选出必要的数据。

问:您说过,特定领域语言模型对于收集必要的数据至关重要。那么,如何才能如此快速地创建和应用特定领域语言模型呢?

AI 总经理郑镇宇:如果将语言模型应用于其他领域,其性能会下降。例如,色情检测模型无法应用于金融领域。因此,领域专业化至关重要,尤其是在模型规模较小的情况下。像 ChatGPT 这样的大型语言模型本身就表现出色,但当数据量巨大时,大型模型就无法满足需求。如果要进行实时分类,则需要使用小型模型,而为此,您需要一个针对该领域高度专业化的模型。

CTO 朴根泰:当我们收到客户数据时,我们可以非常快速地确定需要将哪些数据输入到一定规模的语言模型中才能使其发挥作用。因此,我们能够比其他竞争对手更快地构建最佳规模的语言模型,并快速开展项目。

问:我认为你需要了解领域才能创建特定领域的模型。你对领域了解多少?

AI 总经理郑镇宇:如果你开发棒球领域的语言模型,你就必须了解棒球。这就是为什么 S2W 在早期阶段会与客户进行大量咨询的原因。许多公司忽视了这一点,而其他公司通常会说:“我们的模型就是你所需要的一切。” 我认为这是不可能的。S2W 之所以能够取得成功,是因为我们在暗网领域拥有丰富的经验。我们与领域专家进行讨论,并快速准确地提取类别和特征。

CTO朴根泰:我们仅用了5个月就完成了H公司这个非常大规模的项目。前期我们大概用了一个月的时间进行咨询。这个时候,领域专家的作用就非常重要了。

问:最后,请解释一下知识图谱技术以及如何利用它。

AI总经理郑镇宇:知识图谱由节点(点)和边(线)组成。知识图谱由多个圆圈组成,圆圈之间用线连接以表示关系。构建的最后阶段是将收集到的数据以图的形式表达出来。为了正确理解关系,必须创建图谱。

S2W 开始使用知识图谱技术追踪暗网上的犯罪活动。这是因为关系信息是犯罪追踪的关键。例如,假设一名黑客在暗网上窃取了公司信息,并发布了“OO 数据以这个价格出售。我们在 Telegram 上聊聊吧”的帖子。S2W 会从帖子中提取 Telegram ID 作为关键特征,搜索在其他暗网或平台上使用相同 Telegram ID 的案例,并将两者关联起来。如果犯罪分子还留下了比特币地址,它会将其设置为另一个节点并将其连接到 Telegram ID,同时追踪从该比特币地址到另一个地址的转账记录。这是因为由于区块链的特性,比特币交易信息是公开的,因此可以被追踪。如果以这种方式将其关联成图谱,就可以将第一个发布帖子的人的 Telegram ID 与比特币地址关联起来,甚至可以找出犯罪分子最终在哪个交易所套现。知识图谱技术系统地追踪犯罪调查领域中各种标识符之间的联系,而关系信息非常重要。

问:我们之前听说过多领域交叉分析技术,比如数据采集技术、领域特定语言模型技术、基于本体的知识图谱技术,那么这些技术在SAIP中是如何应用的呢?

AI总经理郑镇宇:S2W为H公司和L公司构建了SAIP解决方案,是一种在用户提出问题时提供答案的方法,但两家公司的特点有所不同。

H公司整合了分散在多个业务门户的13万份内部文档,并构建了一个聊天机器人,该机器人可以快速搜索相关数据,并在用户通过语音提问时提供所需的答案。该项目的核心价值在于数据集成和更高的可访问性。以前,要查找安全数据,必须访问安全门户;要查找设施数据,则必须单独访问设施门户。即使对于不熟悉设施领域的安全经理来说,访问设施门户也很困难。但是,有了新的集成系统,如果您询问“请告诉我与该设施相关的安全指南”,无需直接访问设施门户,即可立即收到相关信息。

AI总经理郑镇宇表示:L公司的趋势分析解决方案是一个利用L公司关联公司购买数据来分析市场变化的系统。例如,当酒类销售额激增时,我们不会简单地核对数字,而是从新闻报道或社交媒体等外部数据中发现相关现象,并创建综合分析报告。具体来说,如果单独饮酒者的购买量急剧增加,我们会收集、提炼和分析外部数据,得出“单独饮酒者增加的原因如下”这一结论并生成报告。S2W将过去由员工手动完成的复杂趋势分析工作自动化,大幅提高了效率和准确性。

问:你们最初从事暗网业务,现在正在向行业扩展。未来你们计划进军哪些行业?

AI总经理郑镇宇:Palantir最初也是从中央情报局(CIA)和安全领域起步的,但现在已经扩展到所有企业领域。我认为,当方法论系统性地建立起来后,扩展会更容易。我们目前正在审查金融和国防领域,将其作为我们的首要任务。

朴根泰首席技术官:不过,我们计划优先进行垂直深度建设,而不是利用现有积累的资产进行大规模扩张。定制化对于每家公司来说都至关重要,而钢铁行业和流通行业各有特点,即使在同一家钢铁公司内部,也各有其独特之处,因此我们认为定制化方法更为有效。因此,我们计划专注于已取得成效的领域开展业务。

问:看来技术需要不断进步。您计划朝哪个具体方向发展呢?

首席技术官朴根泰:我们正努力从以文本为中心向多模态(图像、视频、语音)演进。安全领域内部拥有一批专家,因此人工智能的应用水平高于其他领域。由于我们内部拥有能够撰写高级安全报告的专家,我们拥有可用于人工智能学习的高质量数据的优势。

AI总经理郑镇宇:智能体必须能够提供真正有助于决策的结论。S2W智能体的目标是实现超越简单问答的AI,能够生成专家级报告水平的高级结论。

扩展到帮助每个企业做出决策的人工智能解决方案

我们确认了S2W的独特方法。其关键在于深刻理解各领域特性,并快速开发出适合该领域的小型语言模型的诀窍。最重要的是,其特点是通过与客户进行充分沟通,从而获取领域知识。

S2W 于 2018 年以暗网分析公司起步,凭借其严谨的技术方法和持续的领域学习,如今已发展成为一家分析各行业大数据的 AI 公司。S2W 自安全领域起步以来积累的技术资产,如今正成为 AI 时代更强大的竞争力。“多领域交叉分析”这个略显复杂的名称背后,隐藏的真正核心,最终是为实现“像人类一样思考的 AI”而不懈努力。