月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake

图灵汇官网

引言

最近,月之暗面Kimi携手清华大学MADSys实验室,推出了一套名为Mooncake的大规模模型推理系统设计方案。该系统借助KVCache优化了PD分离和存算分离的架构,显著增强了推理处理速度。

Mooncake 推理系统设计思路

今年6月,Kimi与清华大学MADSys实验室共同发布了Mooncake的技术方案。Mooncake的核心亮点是KVCache,其独特的架构设计极大提升了推理效率。

技术推广计划

为了加速Mooncake技术的实际应用,月之暗面Kimi与清华大学MADSys实验室联手多家企业,包括9#AISoft、阿里云、华为存储、面壁智能以及趋境科技,启动了一个开源项目。该项目聚焦于构建一个以KVCache为核心的大型模型推理框架。

开源进程

11月28日,Mooncake技术框架正式面向公众开放源代码。这个项目源于学术研究,围绕大规模KVCache缓存池展开,通过存算分离的方式有效减少了计算资源的消耗,进而提高了推理性能。

开源规划

此次开源行动将按步骤推进。首先,会陆续公开高性能KVCache多级缓存Mooncake Store的具体实现细节。同时,还将针对不同类型的推理引擎和底层存储/传输资源进行适配。目前,传输引擎Transfer Engine已在全球最大的代码托管平台GitHub上对外开放。

长远愿景

Mooncake开源项目的目标是,在大模型时代创建一种新型的高性能内存语义存储标准接口,并提供对应的参考实现。此举有望促进大模型技术的进步及其广泛应用。

Mooncake 系统架构

Mooncake推理系统架构图直观呈现了系统的整体布局以及各个模块间的相互联系。这样的设计让Mooncake能够更高效地满足大规模模型推理的需求。

本文来源: 互联网 文章作者: 兰舒凡