复杂的数学问题、学术讨论或生活中的重要决定——当人工智能拥有类似人类的思考能力时,这些问题都能更快得到解决。“数学场景是一个非常适合训练AI思考能力的领域。”近日,月之暗面创始人杨植麟推出了一款名为k0-math的新一代数学推理模型。
无论是数学竞赛题还是日常生活中的复杂决策,当AI具备人类的思考方式时,这些问题都能迎刃而解。“什么样的环境最适合训练AI的思维能力?我们认为是数学场景。”11月16日,月之暗面创始人杨植麟发布了k0-math,这款模型在中考、高考、研究生考试以及包含竞赛题的MATH测试中表现出色。其首代版本的成绩已经超越了OpenAI的o1-mini和o1-preview。
“可以说,这是国内首次成功模仿OpenAI o1系列技术的企业。”一位业内人士指出,k0-math采用了创新的强化学习和思维链(CoT)推理技术,这也是OpenAI o1系列的关键所在。过去一年半,随着新技术、新团队和新应用的不断出现,AI行业发生了巨大变化。从月之暗面到零一万物等初创公司,再到各大互联网巨头,AI助手领域的竞争愈发激烈,形成了“两强多强”的局面,其中豆包和Kimi处于领先地位。
假设你有100枚硬币全部正面朝上,每次翻转其中一些硬币及其相邻的两枚硬币,最少需要翻转多少次才能让所有硬币反面朝上?Kimi数学版展示了强大的解题能力,仅用40秒就完成了问题分解、多种解法尝试、验证并给出正确答案的过程。这种能力反映了模型的独立思考能力。
今年9月,OpenAI创始人Sam Altman提到,o1系列的问世标志着一种全新模式的开启,通过模拟人类思维过程进行的强化学习和思维链技术显著提升了AI的推理水平。在此背景下,Kimi于11月16日推出了国内首个类似的模型。k0-math在解题时更加注重推理,包括思考和规划步骤,并在必要时调整和优化解题思路,从而提高了答题的准确性。
发布会上,月之暗面分享了k0-math的评测数据。在MATH基准测试中,k0-math获得了93.8分,高于o1-mini的90分和o1-preview的85.5分。在更具挑战性的OMNI-MATH和AIME基准测试中,k0-math同样表现优异。实际测试显示,Kimi数学版仅需2分10秒就完成了某道数学题的解答,而o1-mini和o1-preview虽然耗时较少,但未能给出正确答案。
杨植麟提到,这项数学推理技术可以在更多场景中发挥作用,比如让Kimi探索版实现更多功能。实际测试表明,Kimi探索版具有强大的搜索能力和意图理解能力。
Kimi探索版在搜索量、搜索内容和生成内容方面的表现尤为突出,尤其在学术研究和市场分析等专业领域。数据显示,截至10月,豆包和Kimi的下载量均超过5000万,其中豆包破亿,Kimi超过5700万。在全球范围内,Kimi和豆包在苹果端的应用下载榜中名列前茅,占据全球苹果端AI应用下载量的51%。此外,Kimi的用户粘性和活跃度也位居前列,截至10月,其月活跃用户已超过3600万。
杨植麟表示,月之暗面将持续专注于提升模型的思考和推理能力,为用户提供真正的价值,而不是仅仅追求差异性。未来,他们将继续朝着这个方向努力。