MLCommons推理测试：英特尔Gaudi2险胜英伟达H100

投稿
APP
微信扫一扫获取更多

MLCommons推理测试：英特尔Gaudi2险胜英伟达H100

朱颖

2023-09-12 00:00:00

图灵汇官网

导览

近期，MLCommons公布了针对庞大60亿参数级语言模型及结合计算机视觉与自然语言处理的GPT-J模型的MLPerf推理版本3.1的性能基准测试结果。测试涵盖了一系列硬件平台，包括Habana Gaudi 2加速器与第四代英特尔至强可扩展处理器。

在Habana Gaudi 2加速器的测试中，结果显示该平台在先进视觉语言模型的推理性能上表现出色，甚至超越了NVIDIA的H100处理器。这一发现强化了英特尔作为提供与NVIDIA H100和A100竞争的唯一可行解决方案的能力。

具体而言，Gaudi 2在GPT-J模型上的表现显著。在GPT-J-99和GPT-J-99.9的服务器查询与离线样本推理中，性能分别达到了每秒78.58次与84.08次。与NVIDIA H100相比，Gaudi 2在服务器端的性能领先约1.09倍，在离线场景下则领先1.28倍。Gaudi 2还展示了在FP8数据类型下的高准确率，达到了99.9%的水平。

英特尔持续优化Gaudi 2，每6-8周进行一次软件更新，致力于在MLPerf基准测试中展示其产品性能的持续进步以及更广泛的模型覆盖。此外，英特尔通过MLPerf基准测试的成果进一步证实了其在AI领域的技术实力。

在第四代英特尔至强可扩展处理器的测试中，结果显示该系列处理器在处理通用AI工作负载时展现出色性能。这些处理器适用于包括视觉、语言处理、语音和音频翻译在内的多种模型，以及更大规模的DLRM v2深度学习推荐模型与ChatGPT-J模型。截至目前，英特尔是唯一一家使用行业标准深度学习生态系统软件提交公开CPU结果的厂商，这凸显了其在AI领域的重要地位。

特别值得一提的是，第四代至强可扩展处理器在执行特定任务时，如对约1000-1500字的新闻稿进行每秒两段的100字摘要生成，以及在实时服务器模式下完成每秒一段的摘要生成，表现出高效的性能。此外，英特尔至强CPU Max系列的MLPerf结果表明，它能够提供高达64GB的高带宽内存，对于如GPT-J这类需要高精度的应用至关重要。

通过与OEM厂商的合作，英特尔展示了其AI性能的可扩展性以及基于第四代至强处理器的通用服务器的广泛可用性，以满足客户服务协议（SLA）的需求。

总结

MLPerf是一个备受尊敬的AI性能基准测试，旨在提供公正、可复现的产品性能比较。英特尔计划在下一版MLPerf测试中提交其AI训练性能结果，进一步巩固其在AI领域的领先地位。