人工智能动态

微信公众号

人工智能报

微信视频号

图灵汇

抖音号

图灵汇

小红书

AI中国

头条号

媒体矩阵

更多

以上自媒体由本平台或本平台合作伙伴提供服务。

    9月 02
  1. 今天
  2. 星期二
57:00
grade

一、探索模型推理能力的突破点

在当前人工智能领域,模型的推理能力成为衡量其技术深度的重要标准。从早期引入强化学习机制到近期算法优化,这一领域的进展不断推动着技术边界。然而,真正实现高水平的数学与代码推理并非易事,尤其对于资源有限的团队而言,复现顶尖成果需要更深入的理解与创新。

近日,快手 Klear 语言大模型团队发布了一款名为 Klear-Reasoner 的模型,基于 Qwen3-8B-Base 构建,在多个权威测试中表现突出,并公开了完整的训练流程,为社区提供了宝贵的参考。

二、Klear-Reasoner 的性能亮点

Klear-Reasoner 在 AIME2024 和 AIME2025 等高难度数学竞赛中分别取得 90.5% 和 83.2% 的成绩,位居同规模模型前列。此外,在 LiveCodeBench V5 和 V6 等复杂代码评测中,其表现也远超其他开源模型。这些成绩不仅展示了模型的强大能力,也为后续研究提供了新的方向。

三、核心技术创新:GPPO 算法

Klear-Reasoner 的成功离不开其核心技术——GPPO(Gradient-Preserving Clipping Policy Optimization)算法。该算法通过保留所有梯度信息并进行温和回传,实现了模型在稳定性和探索性之间的平衡。相比传统方法,GPPO 不仅提升了模型的学习效率,还增强了其应对复杂任务的能力。

四、训练过程中的关键发现

除了 GPPO 算法,Klear 团队还在训练过程中总结出一系列重要经验:

  • 数据质量优先:高质量的数据源比大量低质数据更能提升模型表现。
  • 高难度任务的容错机制:在处理复杂问题时,适当保留错误路径反而有助于模型学习。
  • 软奖励策略的优势:在代码任务中,使用基于通过率的软奖励比完全通过的硬奖励效果更好。
  • 数据过滤的重要性:在代码强化学习阶段,对测试用例进行筛选能够显著提升模型性能。

这些发现为未来模型的训练和优化提供了明确的方向。

五、开放共享的价值

Klear-Reasoner 不仅是一款高性能的模型,更是对整个社区的贡献。通过公开训练细节和算法设计,它为研究者提供了一个可复现、可扩展的实验平台。这种开放精神,有助于推动人工智能技术的持续进步。

扫描二维码即可下载图灵汇App
  • 扫码关注
  • 图灵汇