图灵汇报道显示,MiniMax 稀宇科技计划在未来五天内陆续推出重要更新。首日,他们发布了全球首个开源推理模型——MiniMax-M1。
这款模型因其创新的混合架构而备受关注。据官方描述,MiniMax-M1 是首个开源的大型混合架构推理模型,其能力在生产环境中表现出色,不仅超过了国内的闭源模型,也接近国际顶尖水平,同时具有极高的性价比。
研发团队透露,MiniMax-M1 的训练过程非常高效,仅耗时三周,使用了512块H800 GPU就完成了强化学习阶段的训练,总成本仅为53.47万美元。这一成果远低于最初的预算预期,显示出显著的成本节约。
MiniMax-M1 的一大亮点是支持高达100万Token的上下文输入,这一能力使其与Google Gemini 2.5 Pro持平,是DeepSeek R1的八倍,同时也是行业中最长的8万Token推理输出。这种高性能得益于其独特的闪电注意力机制混合架构,大幅提升了处理长文本和深度推理的能力。例如,在8万Token的推理任务中,它只需DeepSeek R1约30%的算力即可完成,极大提高了训练和推理的效率。
此外,团队还开发了一种名为CISPO的新算法,通过优化重要性采样权重而非传统的token更新来加速强化学习过程。实验表明,该算法的收敛速度比近期流行的DAPO算法快一倍,且显著优于DeepSeek早期采用的GRPO算法。
在多项评测中,MiniMax-M1的表现令人印象深刻。特别是在软件工程、长文本理解和工具应用等领域,MiniMax-M1展现出了强大的竞争力。比如,在SWE-bench验证基准上,MiniMax-M1-40k和MiniMax-M1-80k分别取得了55.6%和56.0%的成绩,虽然稍逊于DeepSeek-R1-0528的57.6%,但已显著优于其他开源模型。
另外,MiniMax-M1系列在长上下文理解方面尤为突出,其百万级的上下文窗口使其在全球范围内排名第二,仅次于Gemini 2.5 Pro。在代理工具使用场景中,MiniMax-M1-40k同样处于领先地位,击败了Gemini-2.5 Pro。
值得一提的是,MiniMax-M1-80k在多数测试中都优于MiniMax-M1-40k,证明了增加计算资源的价值。完整的模型权重和技术文档可在官方Hugging Face和GitHub账号获取。此外,vLLM和Transformer两个开源项目提供了相应的推理部署支持,与SGLang的合作也在推进中。
由于其高效的算力利用,MiniMax在自家App和网站上提供了无限制的免费使用服务,并通过官网提供了业内最低价格的API接口。不同输入长度下的收费标准分别为:0-32k Token时,输入每百万Token收费0.8元,输出每百万Token收费8元;32k-128k Token区间内,输入收费1.2元,输出收费16元;最长的128k-1M Token区间内,输入收费2.4元,输出收费24元。前两类模式的性价比高于DeepSeek-R1,而最后一种模式则不在DeepSeek的服务范围内。
未来几天,MiniMax还将带来一系列新进展,敬请期待。