助攻AI大模型，腾讯云星脉高性能计算网络首次完整披露

投稿
APP
微信扫一扫获取更多

助攻AI大模型，腾讯云星脉高性能计算网络首次完整披露

程欣

2023-06-27 10:15:02

图灵汇官网

导览

腾讯云在6月27日的北京AI大模型高性能网络沟通会上，首次公开了其自主研发的星脉高性能计算网络。该网络凭借3.2Tbps的业界最高互联带宽，显著提升了40%的GPU利用率，降低了30%至60%的模型训练成本，并将AI大模型的通信性能提升至10倍。

基于腾讯云新一代算力集群HCC，星脉网络支持高达10万卡的超大规模计算。这一发展正值AI时代大模型成为行业热点之际，腾讯云通过此发布会，与媒体共同见证了星脉网络的全新升级及腾讯云网络研究的进展。

王亚晨，腾讯云副总裁，表示：“星脉网络专为大模型而生。它提供卓越的高性能网络服务，旨在突破算力瓶颈，释放AI潜能，全面增强企业大模型的训练效率，加速AI技术的迭代与实际应用。”

一、AI大模型的三大网络需求

随着AI大模型训练参数的激增，从万亿级别，数据处理任务已超越单个服务器的处理能力，需依赖多个GPU服务器协同作业。这些服务器通过机间网络相连，频繁交换数据，故高性能网络至关重要，以确保集群快速、准确地完成大规模任务。

然而，大规模集群并非意味着高算力，反而会增加通信开销。传统网络架构下，数据传输需经过多层协议栈，频繁暂停进行检查、分拣与打包，导致通信效率低下。因此，网络层级越多，集群通信性能越受影响。当前流行的生成式AI大模型训练过程，通信占比可达50%，而传统低速网络的带宽难以满足需求。

为解决这一挑战，业界常采用RDMA技术，允许计算节点间直接数据传输，减少中间环节。尽管RDMA技术有所助益，但传统网络协议仍限制了GPU集群的运行效率。传统协议易引发网络拥堵、高延迟与丢包现象，0.1%的丢包率可能导致50%的算力损失，从而造成资源浪费。

二、3.2Tbps带宽与10万卡集群支持

面对上述问题，腾讯云通过软硬件升级，推出了自研的大模型专属高性能网络——星脉。星脉在硬件与软件层面均有显著提升，包括自研的白盒交换机、网络操作系统与TiTa网络协议等，以满足AI大模型的带宽与拓扑需求。

三、网络硬软件全自研的3代演进

回顾过去17年的网络发展，腾讯数据中心网络经历了从互联网驱动、云服务驱动到大规模算力驱动的三个阶段。从初期的南北向流量为主，到云服务兴起后的南北向与东西向流量并存，再到如今AI大模型对网络性能的新需求，腾讯云始终引领技术创新，自研软硬件设施，构建了适应新场景的高性能网络架构。

结语：面向AI大模型的星脉网络

参数量级达到千亿乃至万亿级别的AI大模型对网络性能提出极高要求，星脉网络正是为此而生。凭借3.2Tbps的带宽与10万卡集群支持，星脉网络显著提升了AI大模型的通信性能，为大模型训练提供了可靠保障。在千模大战的背景下，腾讯云不仅关注大模型的研发，更致力于构建高性能网络，为AI技术的实际应用提供强大支持。未来，腾讯云将继续探索下一代高性能网络，构建更强大的计算集群。