在当前人工智能领域,模型的推理能力成为衡量其技术深度的重要标准。从早期引入强化学习机制到近期算法优化,这一领域的进展不断推动着技术边界。然而,真正实现高水平的数学与代码推理并非易事,尤其对于资源有限的团队而言,复现顶尖成果需要更深入的理解与创新。
近日,快手 Klear 语言大模型团队发布了一款名为 Klear-Reasoner 的模型,基于 Qwen3-8B-Base 构建,在多个权威测试中表现突出,并公开了完整的训练流程,为社区提供了宝贵的参考。
Klear-Reasoner 在 AIME2024 和 AIME2025 等高难度数学竞赛中分别取得 90.5% 和 83.2% 的成绩,位居同规模模型前列。此外,在 LiveCodeBench V5 和 V6 等复杂代码评测中,其表现也远超其他开源模型。这些成绩不仅展示了模型的强大能力,也为后续研究提供了新的方向。
Klear-Reasoner 的成功离不开其核心技术——GPPO(Gradient-Preserving Clipping Policy Optimization)算法。该算法通过保留所有梯度信息并进行温和回传,实现了模型在稳定性和探索性之间的平衡。相比传统方法,GPPO 不仅提升了模型的学习效率,还增强了其应对复杂任务的能力。
除了 GPPO 算法,Klear 团队还在训练过程中总结出一系列重要经验:
这些发现为未来模型的训练和优化提供了明确的方向。
Klear-Reasoner 不仅是一款高性能的模型,更是对整个社区的贡献。通过公开训练细节和算法设计,它为研究者提供了一个可复现、可扩展的实验平台。这种开放精神,有助于推动人工智能技术的持续进步。