近期,百度智能云开启了昆仑芯三代万卡集群,这是国内首个自主研发的万卡集群投入实际使用。未来,更大的3万卡集群计划上线。这项技术进步不仅提升了百度的技术能力,也为中国科技行业、互联网领域以及人工智能产业创造了新机会。
万卡集群具有明显优势,不仅能提供强劲的计算能力,还能帮助企业降低成本。在行业内,降低大型模型的使用成本是重点之一,而算力不足是成本高的重要因素。通过自主研发芯片和构建大规模集群,百度解决了自身算力问题,也为行业提供了新的解决思路。
从算力角度看,超大规模并行计算显著提高了训练效率,万卡集群大幅减少了训练时间,满足了AI应用快速更新的需求。它还能支持更大规模的模型和复杂任务,包括多模态数据,推动了像Sora这类应用的发展。同时,万卡集群具备多任务并发处理能力,通过动态资源分配,可以在同一集群内同时训练多个轻量级模型,通过优化通信和容错机制,进一步减少了训练成本。
随着国产大模型的普及,万卡集群正在从单一任务的算力消耗向最大化集群效能转变。通过模型优化、提高有效训练率和动态资源配置,智能调度任务,将训练、微调和推理任务混合部署,从而提升了集群的整体利用率,降低了每单位算力的成本。
百度的百舸AI异构计算平台4.0(简称“百舸平台”)在万卡集群建设中发挥了重要作用。该平台突破了硬件扩展性的限制,比如卡间互联的拓扑约束,防止通信带宽成为瓶颈。同时,通过创新的散热方案解决了万卡集群的能效和散热难题。在分布式训练优化方面,采用了高效的并行化任务切分策略,使集群的内存利用率提升至58%。
在稳定性方面,百舸平台提供了容错和稳定性机制,避免了因单卡故障率上升导致的有效训练率大幅下降,保证了98%的有效训练率。针对机间通信带宽需求,建设了超大规模的高性能网络,优化了拓扑结构,降低了通信瓶颈,使带宽有效性超过90%。
在多芯混合训练方面,百舸平台展现了强大的资源整合能力,能够统一管理不同地点和规模的异构算力,形成多芯资源池。当业务提交任务时,平台会自动选择性价比最高的芯片来执行任务,从而最大程度利用集群的剩余资源,实现高达95%的万卡多芯混合训练效能。
此外,百舸平台提供了全面的故障诊断功能,能迅速自动检测出导致训练任务异常的节点故障。百度自研的BCCL(百度集合通信库)能快速定位故障并提供自动化容错能力,将故障恢复时间从小时级缩短到分钟级,极大提升了集群的可靠性和可用性。
最近,花旗银行发布报告称,DeepSeek和百度等中国模型表现出高效且低成本的特点,这将加快全球AI应用的开发速度,并推动2025年成为人工智能应用的重要转折点。中国工程院院士、清华大学计算机系教授郑纬民认为,尽管构建国产自主万卡系统面临诸多挑战,但其重要性不容忽视。