Anthropic亮剑：Sonnet 4.5性能数据碾压全场，AI编码竞赛提前迎来终局？

投稿
APP
微信扫一扫获取更多

Anthropic亮剑：Sonnet 4.5性能数据碾压全场，AI编码竞赛提前迎来终局？

郭懿

2025-09-30 14:12:13

2025年9月29日，人工智能安全与研究公司Anthropic推出了其模型系列的最新版本Claude Sonnet 4.5。这次发布被视为公司历史上最重要的更新之一，不仅在编程能力上宣称达到全球领先水平，还引入了持续运行超过30小时的智能任务处理功能，打破了行业对AI执行时间的传统认知。同时，配套的开发工具和软件接口也一并推出，显示出公司在构建AI生态系统方面的强烈意愿。

Sonnet 4.5不是简单的升级，而是整体能力的提升。官方表示，这是目前市场上最强大的编程模型，也是创建复杂智能系统和操作计算机的理想选择。它在逻辑推理和数学运算方面也有明显进步。

相比以往较为谨慎的宣传方式，这次Anthropic表现出十足的信心，直接称其为“世界最佳”，而非仅限于内部比较。

为了帮助开发者更好地使用该模型，Anthropic推出了一系列新工具：

Claude Code SDK新增了“检查点”功能，让长时间的编程任务可以保存进度，方便后续继续。针对广泛使用的VS Code用户，提供了原生插件，提高工作效率。Claude Agent SDK是首次对外公开的内部工具，用于解决多智能体系统中的关键问题，如长期任务管理、权限控制以及智能体之间的协作。此外，Imagine with Claude是一种新的开发模式，允许实时生成代码或界面，并根据结果进行优化，目前仍处于测试阶段。

Sonnet 4.5在多个重要领域达到了最先进的水平，特别是在金融、法律、医学和科学等对精确度要求高的领域表现突出。这些成绩源于模型架构和训练数据的深度优化。

新版本加入了“上下文感知”功能，能追踪Token使用情况，避免因上下文不足而中断任务。还能更高效地管理对话内容，提升整体效率。此功能需要在特定模式下启用，有助于降低API调用成本。

在价格方面，Sonnet 4.5保持与前代相同的费用，用户可以用相同的价格获得更强的功能，性价比很高。

多项权威测试结果显示，Sonnet 4.5的表现远超其他竞品。例如，在Sweep-bench测试中得到82分，远高于Google Gemini 2.5 Pro的67分。在OS-World测试中，准确率从Sonnet 4的42.2%跃升至61.4%，提升显著。

Sonnet 4.5的最大亮点是能够持续处理复杂任务超过30小时，这比之前预测的AI完成4小时任务的时间提前了很多。这种能力让模型在多步骤任务中更加稳定，减少了不必要的代码修改。

在工具使用和对齐方面，Sonnet 4.5表现更好，支持更多并行操作，适用于复杂的自动化流程。同时，它在AI安全级别上达到3级，适合对安全性要求高的行业。

Claude Agent SDK和Imagine with Claude的推出，标志着Anthropic正在向平台和生态建设者转型。Agent SDK为分布式AI系统提供支持，而Imagine with Claude则探索了人机协作的新可能。

目前，Sonnet 4.5已经在Claude官网和Claude Code中上线。随着OpenAI的开发者日和Gemini 3的即将发布，AI领域的竞争将更加激烈。Sonnet 4.5的出现，无疑提升了整个行业的技术标准。

本文来源：互联网文章作者：郭懿

24小时热文

: 拜耳成立一支创投联盟
图灵汇

: 啤酒五巨头格局洗牌，百威亚太丢了榜一
图灵汇

: 秦皇岛产投战新股权投资基金成立，出资额5亿元
图灵汇

: 中国新能源汽车加速出海，比亚迪欧洲市场份额超越特斯拉
图灵汇

: 岚图FREE+8月销量5239台，强势夺得中大型SUV华系销冠！
图灵汇

Anthropic亮剑：Sonnet 4.5性能数据碾压全场，AI编码竞赛提前迎来终局？

微信扫一扫：分享

微信扫一扫：分享

以 AI 应对 AI：专家讲解如何高效应对网络攻击威胁