华为近期在混合专家模型(MoE)训练领域取得重要突破,推出了一款参数量达到7180亿的新模型——盘古Ultra MoE。这款模型完全基于昇腾AI计算平台完成训练,是一款接近万亿级的MoE模型。华为同步发布了关于盘古Ultra MoE模型架构和训练方法的技术文档,详细阐述了多项关键技术细节,证明了昇腾在大规模MoE训练中的性能优势。
训练如此庞大且高度稀疏的MoE模型并非易事,其中保持训练稳定性是最大难题之一。为此,盘古团队在模型架构和训练流程上进行了创新,最终成功完成了昇腾平台上的全流程训练。
在架构设计上,盘古团队采用了一种名为Depth-Scaled Sandwich-Norm(DSSN)的稳定架构,并使用TinyInit小初始化方法,能够支持超过18TB的数据长时间稳定运行。团队还提出了一种EP loss负载均衡方案,确保各个专家模块的负担均衡,同时提升了每个专家的专业化能力。盘古Ultra MoE结合了行业领先的MLA和MTP架构,在预训练和后训练阶段均采用Dropless策略,实现了MoE架构在性能与效率上的最佳平衡。
在训练方法上,华为团队首次展示了如何在昇腾CloudMatrix 384超节点集群中高效构建大规模稀疏MoE强化学习(RL)后训练框架的核心技术,推动了RL后训练进入超节点集群时代。基于今年5月初公布的预训练系统加速技术,华为团队迅速完成了技术迭代,包括调整适合昇腾硬件的流水线掩盖策略、优化算子执行顺序、减少主机等待时间并提升EP通信效率;开发自适应内存管理方案;通过数据重组实现跨设备注意力负载均衡;以及针对昇腾硬件的算子优化。这些改进使万卡集群的预训练MFU从30%提升到了41%。
另外,近期推出的盘古Pro MoE大模型,尽管参数量为720亿,激活参数量为160亿,但由于其动态激活专家网络的设计,展现出极高的性能表现,甚至能媲美更大规模的模型。在权威的大模型排行榜SuperCLUE 2025年5月的榜单中,该模型在千亿参数量范围内的大模型中位列国内榜首。
华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,显示了华为已实现国产算力与国产模型全流程自主训练的能力,同时在集群训练系统的性能上达到了行业顶尖水准。这进一步验证了国产AI基础设施的创新能力,为中国人工智能产业的发展奠定了坚实的基础。