一键搭建 AI 数据中心，NVIDIA DGX SuperPOD 开启 AI 超算新模式

投稿
APP
微信扫一扫获取更多

一键搭建 AI 数据中心，NVIDIA DGX SuperPOD 开启 AI 超算新模式

夏祥毅

2022-01-12 00:00:00

图灵汇官网

AI模型规模激增与数据中心转型

随着AI技术的飞速发展，AI模型的规模呈现出指数级的增长。自2018年谷歌发布BERT模型以来，模型参数量从最初的9500万迅速攀升至2020年OpenAI发布的GPT-3的1750亿参数，再到2021年浪潮发布的中文AI大模型源1.0的2500亿参数，乃至微软和NVIDIA联合推出的威震天-图灵（Megatron Turing-NLG）高达5000亿参数规模，AI模型规模在短短四年间放大了5000倍。

AI模型算力需求与数据中心转型

当前，AI模型的快速发展速度远超摩尔定律的预测，传统数据中心难以满足日益增长的AI算力需求。因此，传统数据中心向AI数据中心的转变成为必然趋势。为了应对AI模型的算力需求，帮助企业构建AI数据中心，NVIDIA于2021年4月推出了DGX SuperPOD云原生超级计算机，提供一站式AI数据中心解决方案，成为满足AI大模型计算需求的重要工具。

大模型时代的挑战与机遇

近年来，数据与模型规模的爆发式增长，加上AI技术在自然语言处理、搜索、医疗等领域的广泛应用，对AI算力提出了更高的要求。构建多机多卡的大规模集群成为满足高阶算力需求的关键。这一趋势不仅推动了AI技术的创新，也促进了AI数据中心的兴起和发展。

AI数据中心的核心架构与技术整合

AI数据中心通常采用GPU+CPU异构架构，其中CPU负责逻辑控制，擅长处理复杂算法和并行操作，而GPU则专注于大量数据的并行计算，两者协同工作，显著提升运算效率。AI数据中心融合AI、云计算、大数据等技术，提供大规模算力，优化资源利用率，提升数据处理能力，加速AI模型的训练与推理过程。

NVIDIA DGX SuperPOD的解决方案

NVIDIA的DGX SuperPOD云原生超级计算机提供了一套软硬件协同的完整解决方案，不仅满足了AI模型的算力需求，还帮助企业快速部署AI数据中心。通过DGX SuperPOD，AI研究人员可以快速搭建强大、灵活且高效的系统，支持超大语言模型预训练等复杂场景。搭载8个NVIDIA A100 Tensor Core GPU的DGX A100服务器单节点AI算力可达5 PFLOPS，多个DGX A100组成机架的算力相当于一个AI数据中心。此外，NVIDIA还提供了基础设施管理软件Base Command Manager，以及专业的部署服务，确保AI数据中心的高效运行。

实际应用与未来展望

NVIDIA的集群方案成功地解决了大模型的算力难题，加速了AI训练与迭代的速度，降低了企业AI训练成本，向着AI技术的普及迈出了重要一步。目前，NVIDIA的DGX SuperPOD方案已被京东探索研究院采用，该研究机构在计算机视觉、自然语言处理、跨模态等多个领域设计和研发的数十个模型均在DGX SuperPOD上实现了理想的加速比和扩展性。

技术研讨会与教育资源

为进一步洞察AI超算发展趋势，深入了解大模型训练与架构设计，NVIDIA与DDN共同举办了一场技术研讨会。研讨会由NVIDIA解决方案架构师赵明坤与DDN存储解决方案架构师李凡主讲，分别围绕AI数据中心的构建难点、NVIDIA DGX SuperPOD云原生超级计算机的架构应用，以及高速并行存储在AI/HPC数据中心应用的实践等内容进行了详细解析。观众可通过链接回顾本次公开课的精彩内容。