Kimi、豆包领跑，国产AI迎来新格局

投稿
APP
微信扫一扫获取更多

Kimi、豆包领跑，国产AI迎来新格局

丁舒熳

2024-11-26 08:07:15

图灵汇官网

引言

复杂的数学问题、学术讨论或生活中的重要决定——当人工智能拥有类似人类的思考能力时，这些问题都能更快得到解决。“数学场景是一个非常适合训练AI思考能力的领域。”近日，月之暗面创始人杨植麟推出了一款名为k0-math的新一代数学推理模型。

k0-math模型发布

无论是数学竞赛题还是日常生活中的复杂决策，当AI具备人类的思考方式时，这些问题都能迎刃而解。“什么样的环境最适合训练AI的思维能力？我们认为是数学场景。”11月16日，月之暗面创始人杨植麟发布了k0-math，这款模型在中考、高考、研究生考试以及包含竞赛题的MATH测试中表现出色。其首代版本的成绩已经超越了OpenAI的o1-mini和o1-preview。

技术突破与行业意义

“可以说，这是国内首次成功模仿OpenAI o1系列技术的企业。”一位业内人士指出，k0-math采用了创新的强化学习和思维链（CoT）推理技术，这也是OpenAI o1系列的关键所在。过去一年半，随着新技术、新团队和新应用的不断出现，AI行业发生了巨大变化。从月之暗面到零一万物等初创公司，再到各大互联网巨头，AI助手领域的竞争愈发激烈，形成了“两强多强”的局面，其中豆包和Kimi处于领先地位。

新模型亮相

Kimi对标o1

假设你有100枚硬币全部正面朝上，每次翻转其中一些硬币及其相邻的两枚硬币，最少需要翻转多少次才能让所有硬币反面朝上？Kimi数学版展示了强大的解题能力，仅用40秒就完成了问题分解、多种解法尝试、验证并给出正确答案的过程。这种能力反映了模型的独立思考能力。

今年9月，OpenAI创始人Sam Altman提到，o1系列的问世标志着一种全新模式的开启，通过模拟人类思维过程进行的强化学习和思维链技术显著提升了AI的推理水平。在此背景下，Kimi于11月16日推出了国内首个类似的模型。k0-math在解题时更加注重推理，包括思考和规划步骤，并在必要时调整和优化解题思路，从而提高了答题的准确性。

测试成果

发布会上，月之暗面分享了k0-math的评测数据。在MATH基准测试中，k0-math获得了93.8分，高于o1-mini的90分和o1-preview的85.5分。在更具挑战性的OMNI-MATH和AIME基准测试中，k0-math同样表现优异。实际测试显示，Kimi数学版仅需2分10秒就完成了某道数学题的解答，而o1-mini和o1-preview虽然耗时较少，但未能给出正确答案。

未来展望

杨植麟提到，这项数学推理技术可以在更多场景中发挥作用，比如让Kimi探索版实现更多功能。实际测试表明，Kimi探索版具有强大的搜索能力和意图理解能力。

用户反馈

Kimi探索版在搜索量、搜索内容和生成内容方面的表现尤为突出，尤其在学术研究和市场分析等专业领域。数据显示，截至10月，豆包和Kimi的下载量均超过5000万，其中豆包破亿，Kimi超过5700万。在全球范围内，Kimi和豆包在苹果端的应用下载榜中名列前茅，占据全球苹果端AI应用下载量的51%。此外，Kimi的用户粘性和活跃度也位居前列，截至10月，其月活跃用户已超过3600万。