助攻AI大模型,腾讯云星脉高性能计算网络首次完整披露

图灵汇官网

导览

腾讯云在6月27日的北京AI大模型高性能网络沟通会上,首次公开了其自主研发的星脉高性能计算网络。该网络凭借3.2Tbps的业界最高互联带宽,显著提升了40%的GPU利用率,降低了30%至60%的模型训练成本,并将AI大模型的通信性能提升至10倍。

基于腾讯云新一代算力集群HCC,星脉网络支持高达10万卡的超大规模计算。这一发展正值AI时代大模型成为行业热点之际,腾讯云通过此发布会,与媒体共同见证了星脉网络的全新升级及腾讯云网络研究的进展。

王亚晨,腾讯云副总裁,表示:“星脉网络专为大模型而生。它提供卓越的高性能网络服务,旨在突破算力瓶颈,释放AI潜能,全面增强企业大模型的训练效率,加速AI技术的迭代与实际应用。”

一、AI大模型的三大网络需求

随着AI大模型训练参数的激增,从万亿级别,数据处理任务已超越单个服务器的处理能力,需依赖多个GPU服务器协同作业。这些服务器通过机间网络相连,频繁交换数据,故高性能网络至关重要,以确保集群快速、准确地完成大规模任务。

然而,大规模集群并非意味着高算力,反而会增加通信开销。传统网络架构下,数据传输需经过多层协议栈,频繁暂停进行检查、分拣与打包,导致通信效率低下。因此,网络层级越多,集群通信性能越受影响。当前流行的生成式AI大模型训练过程,通信占比可达50%,而传统低速网络的带宽难以满足需求。

为解决这一挑战,业界常采用RDMA技术,允许计算节点间直接数据传输,减少中间环节。尽管RDMA技术有所助益,但传统网络协议仍限制了GPU集群的运行效率。传统协议易引发网络拥堵、高延迟与丢包现象,0.1%的丢包率可能导致50%的算力损失,从而造成资源浪费。

二、3.2Tbps带宽与10万卡集群支持

面对上述问题,腾讯云通过软硬件升级,推出了自研的大模型专属高性能网络——星脉。星脉在硬件与软件层面均有显著提升,包括自研的白盒交换机、网络操作系统与TiTa网络协议等,以满足AI大模型的带宽与拓扑需求。

三、网络硬软件全自研的3代演进

回顾过去17年的网络发展,腾讯数据中心网络经历了从互联网驱动、云服务驱动到大规模算力驱动的三个阶段。从初期的南北向流量为主,到云服务兴起后的南北向与东西向流量并存,再到如今AI大模型对网络性能的新需求,腾讯云始终引领技术创新,自研软硬件设施,构建了适应新场景的高性能网络架构。

结语:面向AI大模型的星脉网络

参数量级达到千亿乃至万亿级别的AI大模型对网络性能提出极高要求,星脉网络正是为此而生。凭借3.2Tbps的带宽与10万卡集群支持,星脉网络显著提升了AI大模型的通信性能,为大模型训练提供了可靠保障。在千模大战的背景下,腾讯云不仅关注大模型的研发,更致力于构建高性能网络,为AI技术的实际应用提供强大支持。未来,腾讯云将继续探索下一代高性能网络,构建更强大的计算集群。

本文来源: 图灵汇 文章作者: 程欣
    下一篇

2023年6月,拍拍贷 助微计划 已上线。 助微计划 是拍拍贷针对小微企业主的限时福利活动,通过先息后本的模式助力小微企业周转资金,创新性地将抵押贷款中 先息后本 的还款模式,运用在信用贷款中。小微企业主选择该还款模式后,将大幅度降低前期还款压 ...