AI编程进入“超人时代”！Claude Opus 4.5深夜突袭，编程测试碾压人类-IT新闻-PHP中文网

AI编程进入“超人时代”！Claude Opus 4.5深夜突袭，编程测试碾压人类

P粉602998670

发布： 2025-11-25 16:40:02

原创

926人浏览过

在大模型“下饺子”般密集发布的近期，继gemini 3 pro之后，anthropic公司的claude opus 4.5，也于近日深夜，正式发布。

Anthropic官方宣称，Opus 4.5在编程、构建Agent（智能体）以及操控电脑等“系统级任务”上，依然保持着全球顶尖的水平。

AI编程进入“超人时代”！Claude Opus 4.5深夜突袭，编程测试碾压人类 - php中文网

从官方和测试者的反馈来看，Claude Opus 4.5对“模糊需求”的理解能力，得到了显著的提升。

在业界权威的软件工程测试SWE-Bench Verified中，它成为了第一个拿到80%以上分数的AI大模型。

在涵盖了八种主流编程语言的SWE-bench Multilingual测试中，它在其中的七种语言上，都拔得了头筹。

更令人震惊的是，在Anthropic公司内部用于招聘性能工程师的高难度测试题中，Claude Opus 4.5的得分，竟超过了所有参与测试的人类候选人。

随着能力的不断增强，AI大模型甚至已开始超越现有的一些评测标准。

在一次模拟航空公司客服的智能体能力测试中，按照规则，模型本应拒绝一位乘客更改“不可更改”机票的请求。

然而，Opus 4.5却想出了一个创造性的解决方案：它先将机票从“基础经济舱”升级为“普通经济舱”，然后再为乘客更改了航班。这一完全符合航空公司政策的“骚操作”，虽然在技术上被判定为“测试失败”，却恰恰展现了其独特的、创造性解决问题的强大能力。

爱图表

AI驱动的智能化图表创作平台

305

随着Opus 4.5的推出，Claude的全系工具链，也迎来了一次重大的升级。

Claude Code现已登陆桌面应用，用户可以同时运行多个本地或远程的会话，协同完成复杂的编程任务。

AI编程进入“超人时代”！Claude Opus 4.5深夜突袭，编程测试碾压人类 - php中文网

Claude for Chrome和Claude for Excel，也已向更多的付费用户开放，让Claude能够直接在浏览器和表格软件中，为用户提供强大的AI助力。

此次Opus 4.5的底层架构，也迎来了一次重大的升级。通过引入“effort（努力程度）”参数、上下文压缩以及高级工具调用等多项新技术，

新模型在实现相同甚至更优结果的情况下，其所消耗的tokens（计算资源）数量，相比前代已大幅减少。例如，在中等effort等级下，Opus 4.5的输出tokens数，竟减少了76%。

此外，通过“Tool Search Tool（工具搜索工具）”等新功能，新模型还能在成百上千种工具之间，进行无缝的协作，从而搭建起更为复杂、协调的多智能体系统。

一个越来越清晰的趋势是：未来我们选择AI大模型，将不再仅仅看重其跑分榜上的排名，而会更看重其“做事”的方式，是否与我们“合拍”。换句话说，选择模型，正变得越来越像挑选一位“同事”。

以上就是AI编程进入“超人时代”！Claude Opus 4.5深夜突袭，编程测试碾压人类的详细内容，更多请关注php中文网其它相关文章！

大家都在看：