埃利斯集团利用模块化数据中心创新人工智能生态系统

-通过移动模块化数据中心(AI PMDC)克服现有数据中心的局限性

-凭借10年积累的技术,缩短时间并降低成本…韩国首个CSAP IaaS认证

-Ellis Group,从AI教育平台到AI云的AI生态系统创新

迎来成立十周年的Ellis集团(以下简称Ellis)凭借在AI教育实践平台领域积累的技术实力,在AI云领域脱颖而出。尤其在韩国国内率先建成搭载NVIDIA B200的便携式模块化数据中心(PMDC)等,取得了诸多创新成果。

提供最新GPU性能的“Ellis Cloud”仅需3个月即可搭建完成,尤其与全球云相比,成本可降低77%以上。凭借这些优势,Ellis Cloud在短短6个月内就实现了用户机构数量增长9倍。

今年3月,Ellis在韩国率先获得AI PMDC的CSAP IaaS认证。这使其能够拓展在重视物理安全的公共领域的业务。面向中学信息课程的AI数字教科书AI聊天机器人“Helpi”也在Ellis的安全架构上运行。

金载源代表强调,“在人工智能成为社会必需品的时代,为了技术安全,实现云端本地化、扩大人工智能教育至关重要。”

我们在首尔江南区的 Ellis 办公室与首席执行官 Jaewon Kim 会面,讨论了构建 AI 生态系统所必需的 AI 数据中心和 AI 教育。

AI时代,现有数据中心存在局限性

人工智能与数据中心就像汽车与道路。随着人工智能的发展,需要更强大、更专业化的基础设施,但现有的数据中心无法满足人工智能环境的要求,阻碍了人工智能生态系统的发展。

首先,必须解决电力问题。由于现有数据中心的功耗相对较低,且基于CPU的服务器的发热量也较为可控,因此风冷系统和标准供电设施已足够。然而,在AI时代至关重要的GPU,其功耗是现有服务器的10到100倍。因此,从变电站到配电盘和布线,所有设施都必须新建。冷却系统的建设至关重要,因为仅冷却成本一项就占到总运营成本的30%到40%。

尤其是像H100这样的高性能GPU,会产生大量的热量。数据中心现有的风冷系统难以应对这种热量。即使尝试改用水冷,现有的建筑结构通常也无法承受如此大的负荷。管道的安装需要进行大规模的结构改造,因此新建工程不可避免。

AI 学习需要在数千个 GPU 之间进行实时数据交换。为此,NVIDIA InfiniBand 等超高速网络技术至关重要,但要应用该技术,必须设计与一般数据中心完全不同的网络结构。此外,由于 AI 学习数据通常包含国家机密或个人信息,因此物理安全和数据主权正成为重要的考虑因素。

所有这些问题加在一起,严重阻碍了韩国人工智能基础设施的建设,并导致韩国在全球人工智能竞争中落后。Ellis的模块化数据中心被认为是解决这些问题的创新方案。

移动模块化数据中心……缩短建设时间,降低建设和运营成本

Ellis的核心技术是AI PMDC。这项被称为移动模块化数据中心的技术被评价为克服现有数据中心局限性的创新解决方案。

“使用传统方法构建一个人工智能专用数据中心需要3到5年的时间。然而,Ellis的模块化方法只需3个月即可完成。这是因为设备安装在集装箱内,并且可以灵活组合多个模块。”

要使用现有方法构建人工智能专用数据中心,从选址到设计、施工和设备安装都需要很长时间。此外,还必须经过复杂的许可流程。在时间就是竞争力的时代,您无法在数据中心的建设上投入大量时间。Ellis 的模块化方法是将必要的设备装入预制集装箱,将集装箱运送到所需位置,进行安装,然后连接电源和网络即可立即投入运营。从建设到投入运营仅需 3 个月。

大幅降低初期投资负担。现有数据中心建设需要在土地购置、建筑施工和制冷设施建设等方面投入巨额初期投资,而标准化集装箱式数据中心则可根据需要逐步扩容。在运营过程中,可根据需求变化添加或重新排列模块,从而优化运营成本。在与全球云同等条件下,成本可降低77%以上。这种突破性的价格竞争力背后的秘诀是什么?

“这是因为Ellis从头到尾都是内部开发的。我们通过四年时间独立开发云软件、动态分配技术(根据用户需求实时分配计算资源,并在完成后立即归还的技术)和集群技术,实现了成本优化。”

其中,集群技术尤为关键。开发大规模语言模型 (LLM) 需要连接数千个 GPU,而非仅仅一两个。Ellis 利用 NVIDIA 的 InfiniBand 技术构建了韩国最大的集群环境。通过 InfiniBand 将 GPU 以 10、100 和 1,000 为单位进行捆绑,可以满足各种大型 AI 项目的需求。

现有的数据中心设计符合通用计算机服务器的标准。然而,人工智能数据中心每台服务器所需的功率是现有服务器的10到100倍。需要水冷系统来有效地冷却这种高功率,但现有的国内数据中心无法承受这种负荷。

Ellis 的 PMDC 配备了针对此类高功率、高热量环境优化的水冷系统。它能够有效处理现有数据中心风冷系统无法处理的热量,同时最大限度地降低功耗。尤其是,它的 PUE(电源使用效率指数)达到了 1.27,约为国内数据中心平均水平 2.3 的一半。

模块化的另一个优势是安全性。集装箱本身是坚固的钢结构,物理入侵非常困难。每个集装箱都是一个独立的物理空间,并且由于为每个客户提供一个完全独立的集装箱,因此内部的服务器和数据完全隔离。这类似于拥有多个独立保险箱的概念。由于物理隔离空间,它自然满足了处理敏感数据或最高机密的公共机构和金融公司所需的高安全级别。这在高度关注云安全的韩国环境下尤其具有竞争力。金代表强调:“构建模块化数据中心的首要原因是安全性。”

韩国首个CSAP IaaS认证,构建进军公开市场的桥头堡

正是得益于这一物理安全架构,Ellis 才得以作为国内首家 AI PMDC 获得 CSAP(云服务保障计划,云服务安全认证)IaaS 认证。CSAP 认证需要评估 14 个领域中的 116 个控制项目,而物理安全是关键评估因素之一。CSAP IaaS 认证意味着 AI 专用基础设施的安全性和可靠性已获得官方认可。此次收购 CSAP IaaS 认证后,Ellis 有望进一步巩固其在公共云领域的地位。

CSAP IaaS 认证需要评估 14 个领域中的 116 个控制项。Ellis 是唯一一家专门针对 GPU 获得此认证的公司。凭借这项认证,我们现在可以参与包括 AI 数字教科书在内的各种国家项目。

目前,Ellis中学信息课AI数字教科书中的AI聊天机器人“Helpi”也在该安全架构下运行。学生的学习数据和个人信息在物理隔离的环境中得到安全处理。

爆炸式增长,6 个月内增长 9 倍

Alice Cloud 正在快速发展。从去年 11 月到今年 5 月,短短六个月内,用户机构数量增长了 9 倍多。与服务首次上线的 2023 年 6 月相比,短短 21 个月内,用户数量增长了约 74 倍。

“今年,用户机构的月均增长率超过50%。由于我们以最低的价格和最快的速度提供对国内外大学人工智能研究至关重要的GPU,需求正在呈爆炸式增长。”

事实上,不仅首尔大学、韩国科学技术院、高丽大学等韩国主要大学,美国明尼苏达大学也在使用Alicecloud进行AI研究。明尼苏达大学的一位博士研究员甚至利用Alicecloud向全球最负盛名的AI会议NeurIPS提交了论文。

教育与云的协同

Ellis 的优势在于 AI 教育与 AI 云的协同作用。“Ellis LXP”(学习体验平台)是新一代教育平台,提供以学习者为中心的个性化教育体验,其提供的所有 AI 实践环境均基于 Ellis 云构建。由此,学习者可以在最新的 GPU 环境中进行练习,教育机构无需单独投资硬件即可提供高质量的 AI 教育。

埃利斯学校公共教育创新的领导者

埃利斯学校目前为中学信息课程提供人工智能数字教科书。当学生提问时,自主研发的人工智能聊天机器人“Helpy”会进行解答。该聊天机器人配备了脏话过滤、幻觉抑制以及遵守韩国教育编纂委员会的指导方针等专门针对教育环境的功能。对于“独岛是否属于争议领土?”这样的问题,外国人工智能可能会给出我们不希望的答案,但埃利斯的人工智能却能提供符合韩国历史观和价值观的答案。这是一个实证案例,展现了人工智能主权在教育领域的重要性。

Ellistrack 响应就业市场的变化

Ellistrack 的课程设置围绕 AI 时代涌现的新兴职业。它提供与 AI 相结合的新兴行业的培训课程,例如自动驾驶工程师、机器人专家、AI 业务开发人员以及数据中心运营专家。课程内容包括使用 Elliscloud 在最新的 GPU 环境中直接训练 AI 模型,以及解决实际工业现场可能遇到的问题。

面向企业员工的 Ellis Enterprise

Ellis Enterprise 已被超过 7,100 家公司采用,涵盖 SK、LG、现代汽车等大型企业以及中小型企业,并提供根据每家公司业务特点量身定制的培训。例如,它为制造商提供基于 AI 的质量管理或预测性维护培训,为金融公司提供基于 AI 的风险管理或客户分析培训。

“需要创造大规模投资和人力资源开发的环境”

金墉首席执行官强调,“云计算应该被视为一个软件产业,而不是简单的基础设施”,并且“软件产业的发展对于培育高附加值的云计算产业至关重要”。他还补充说,对云计算进行大胆的投资是必要的。

云计算是一个资本密集型行业。美国和中国的政府和投资者对创新型人工智能云计算初创企业进行了大胆投资。然而,在韩国引入这样的创新型企业并不容易。

金正恩首席执行官强调,政府在韩国人工智能生态系统发展中发挥着至关重要的作用。他尤其认为有必要加大对创新型企业的支持力度。“只有创新型企业参与,才能实现真正的技术创新和成本创新。”

他还指出,人才是人工智能产业发展的关键。“人工智能产业需要各领域的复杂支持,人才是其中之一。人工智能的工作环境与制造业不同,因此需要与之相适应的法律和制度。亟需打造一个防止国内人才流向美国的创新环境。”

埃利斯,梦想成为人工智能强国

基于CSAP IaaS认证,Ellis计划逐步扩展其数据中心业务,以实现教育、医疗、制造等国家各产业领域的AI转型(AX)。最终目标是通过扩大对国产NPU的支持以及与国产AI半导体公司的合作,构建完整的国产AI基础设施生态系统。

在人工智能教育领域,目标是从目前的10万人扩展到500万人,愿景是建成一个以中学信息化课堂为起点,向小学、高中、大学及终身教育体系延伸的全国性人工智能教育平台。

埃利斯还正在考虑为此吸引投资。

“我希望我们的国家在人工智能时代繁荣昌盛。这就是埃利斯的使命和愿景。”

金正恩总统梦想着韩国成为人工智能强国。他希望,当韩国被认可为人工智能强国时,埃利斯能够成为其中心人物。