在大模型“下饺子”般密集发布的近期,继gemini 3 pro之后,anthropic公司的claude opus 4.5,也于近日深夜,正式发布。
Anthropic官方宣称,Opus 4.5在编程、构建Agent(智能体)以及操控电脑等“系统级任务”上,依然保持着全球顶尖的水平。

从官方和测试者的反馈来看,Claude Opus 4.5对“模糊需求”的理解能力,得到了显著的提升。
在业界权威的软件工程测试SWE-Bench Verified中,它成为了第一个拿到80%以上分数的AI大模型。
在涵盖了八种主流编程语言的SWE-bench Multilingual测试中,它在其中的七种语言上,都拔得了头筹。
更令人震惊的是,在Anthropic公司内部用于招聘性能工程师的高难度测试题中,Claude Opus 4.5的得分,竟超过了所有参与测试的人类候选人。
随着能力的不断增强,AI大模型甚至已开始超越现有的一些评测标准。
在一次模拟航空公司客服的智能体能力测试中,按照规则,模型本应拒绝一位乘客更改“不可更改”机票的请求。
然而,Opus 4.5却想出了一个创造性的解决方案:它先将机票从“基础经济舱”升级为“普通经济舱”,然后再为乘客更改了航班。这一完全符合航空公司政策的“骚操作”,虽然在技术上被判定为“测试失败”,却恰恰展现了其独特的、创造性解决问题的强大能力。
随着Opus 4.5的推出,Claude的全系工具链,也迎来了一次重大的升级。
Claude Code现已登陆桌面应用,用户可以同时运行多个本地或远程的会话,协同完成复杂的编程任务。

Claude for Chrome和Claude for Excel,也已向更多的付费用户开放,让Claude能够直接在浏览器和表格软件中,为用户提供强大的AI助力。
此次Opus 4.5的底层架构,也迎来了一次重大的升级。通过引入“effort(努力程度)”参数、上下文压缩以及高级工具调用等多项新技术,
新模型在实现相同甚至更优结果的情况下,其所消耗的tokens(计算资源)数量,相比前代已大幅减少。例如,在中等effort等级下,Opus 4.5的输出tokens数,竟减少了76%。
此外,通过“Tool Search Tool(工具搜索工具)”等新功能,新模型还能在成百上千种工具之间,进行无缝的协作,从而搭建起更为复杂、协调的多智能体系统。
一个越来越清晰的趋势是:未来我们选择AI大模型,将不再仅仅看重其跑分榜上的排名,而会更看重其“做事”的方式,是否与我们“合拍”。换句话说,选择模型,正变得越来越像挑选一位“同事”。
以上就是AI编程进入“超人时代”!Claude Opus 4.5深夜突袭,编程测试碾压人类的详细内容,更多请关注php中文网其它相关文章!
编程怎么学习?编程怎么入门?编程在哪学?编程怎么学才快?不用担心,这里为大家提供了编程速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号