最近,一位名叫ServeTheHome的YouTube博主首次披露了埃隆·马斯克旗下xAI团队开发的Colossus AI超级计算机系统。这套系统由10万块英伟达H100 GPU组成,被认为是当前全球性能最强的AI计算平台。
今年7月底,马斯克曾在社交平台“X”上宣布打造“世界最强AI集群”。从设计到部署,这个项目只花了不到四个月时间,现在已经运行大约三个月。
Colossus系统采用的是超威电脑提供的服务器,基于NVIDIA HGX H100架构。每台服务器搭载8块H100 GPU,且被安置在超威的4U液冷机箱里,方便维护和散热。这类服务器会被放入标准机架中,每架可容纳8台服务器,也就是64块GPU。机架顶部还配备了1U液冷分配装置,连接所有的HGX H100模块。此外,每个机架底部设有一个带有备用泵和监控设备的4U底座。
这些机架以8个为一组,每组包含512块GPU。单台服务器配备了4个备用电源,而GPU机架后方则安装了三相电源接口、网络交换机以及负责冷却的液冷分配装置。据消息透露,Colossus整体系统规模超过1500个GPU机架,相当于接近200个机架组。英伟达CEO黄仁勋称,这200组GPU仅用了三周就完成了组装。
为了满足海量的数据交互需求,xAI在系统网络连接上投入了大量资源。目前,每张显卡都配备了400GbE规格的独立网卡,而每台服务器还额外配置了一张400Gb网卡。这意味着每台HGX H100服务器能实现每秒3.6TB的网络速度。整个系统完全依靠以太网运行,未采用传统的InfiniBand技术。
另外,为了预防突然断电,该超级计算机外围部署了许多特斯拉Megapack储能设备,每套设备容量达3.9兆瓦时。这些电池能在毫秒级响应备用供电请求,比传统柴油发电机反应更快,为其他备用电源启动争取更多时间。
总的来说,xAI的Colossus AI超级计算机凭借其顶尖的硬件配置和高效的冷却机制,在全球范围内独树一帜,成为最具竞争力的AI计算平台之一。