Anthropic亮剑:Sonnet 4.5性能数据碾压全场,AI编码竞赛提前迎来终局?

图灵汇官网

2025年9月29日,人工智能安全与研究公司Anthropic推出了其模型系列的最新版本Claude Sonnet 4.5。这次发布被视为公司历史上最重要的更新之一,不仅在编程能力上宣称达到全球领先水平,还引入了持续运行超过30小时的智能任务处理功能,打破了行业对AI执行时间的传统认知。同时,配套的开发工具和软件接口也一并推出,显示出公司在构建AI生态系统方面的强烈意愿。

Sonnet 4.5不是简单的升级,而是整体能力的提升。官方表示,这是目前市场上最强大的编程模型,也是创建复杂智能系统和操作计算机的理想选择。它在逻辑推理和数学运算方面也有明显进步。

相比以往较为谨慎的宣传方式,这次Anthropic表现出十足的信心,直接称其为“世界最佳”,而非仅限于内部比较。

为了帮助开发者更好地使用该模型,Anthropic推出了一系列新工具:

Claude Code SDK新增了“检查点”功能,让长时间的编程任务可以保存进度,方便后续继续。针对广泛使用的VS Code用户,提供了原生插件,提高工作效率。Claude Agent SDK是首次对外公开的内部工具,用于解决多智能体系统中的关键问题,如长期任务管理、权限控制以及智能体之间的协作。此外,Imagine with Claude是一种新的开发模式,允许实时生成代码或界面,并根据结果进行优化,目前仍处于测试阶段。

Sonnet 4.5在多个重要领域达到了最先进的水平,特别是在金融、法律、医学和科学等对精确度要求高的领域表现突出。这些成绩源于模型架构和训练数据的深度优化。

新版本加入了“上下文感知”功能,能追踪Token使用情况,避免因上下文不足而中断任务。还能更高效地管理对话内容,提升整体效率。此功能需要在特定模式下启用,有助于降低API调用成本。

在价格方面,Sonnet 4.5保持与前代相同的费用,用户可以用相同的价格获得更强的功能,性价比很高。

多项权威测试结果显示,Sonnet 4.5的表现远超其他竞品。例如,在Sweep-bench测试中得到82分,远高于Google Gemini 2.5 Pro的67分。在OS-World测试中,准确率从Sonnet 4的42.2%跃升至61.4%,提升显著。

Sonnet 4.5的最大亮点是能够持续处理复杂任务超过30小时,这比之前预测的AI完成4小时任务的时间提前了很多。这种能力让模型在多步骤任务中更加稳定,减少了不必要的代码修改。

在工具使用和对齐方面,Sonnet 4.5表现更好,支持更多并行操作,适用于复杂的自动化流程。同时,它在AI安全级别上达到3级,适合对安全性要求高的行业。

Claude Agent SDK和Imagine with Claude的推出,标志着Anthropic正在向平台和生态建设者转型。Agent SDK为分布式AI系统提供支持,而Imagine with Claude则探索了人机协作的新可能。

目前,Sonnet 4.5已经在Claude官网和Claude Code中上线。随着OpenAI的开发者日和Gemini 3的即将发布,AI领域的竞争将更加激烈。Sonnet 4.5的出现,无疑提升了整个行业的技术标准。

本文来源: 互联网 文章作者: 郭懿
    下一篇

导读:IT 之家 9 月 17 日消息,如今,随着技术不断创新,人工智能赋能千行百业的步伐也不断加快。在网络安全领域,人工智能的应用也让应对网络攻击变得更加高效。据央视报道,2025 年国家网络安全宣