首页 > 新闻 > IT新闻 > 正文

AI编程进入“超人时代”!Claude Opus 4.5深夜突袭,编程测试碾压人类

P粉602998670
发布: 2025-11-25 16:40:02
原创
926人浏览过

大模型“下饺子”般密集发布的近期,gemini 3 pro之后,anthropic公司的claude opus 4.5,也于近日深夜,正式发布。

Anthropic官方宣称,Opus 4.5在编程、构建Agent(智能体)以及操控电脑等“系统级任务”上,依然保持着全球顶尖的水平。

AI编程进入“超人时代”!Claude Opus 4.5深夜突袭,编程测试碾压人类 - php中文网

编程测试碾压人类,代码质量全面升级

从官方和测试者的反馈来看,Claude Opus 4.5对“模糊需求”的理解能力,得到了显著的提升。

在业界权威的软件工程测试SWE-Bench Verified中,它成为了第一个拿到80%以上分数的AI大模型。

在涵盖了八种主流编程语言的SWE-bench Multilingual测试中,它在其中的七种语言上,都拔得了头筹。

更令人震惊的是,在Anthropic公司内部用于招聘性能工程师的高难度测试题中,Claude Opus 4.5的得分,竟超过了所有参与测试的人类候选人。

超越评测标准:创造性地解决问题

随着能力的不断增强,AI大模型甚至已开始超越现有的一些评测标准。

在一次模拟航空公司客服的智能体能力测试中,按照规则,模型本应拒绝一位乘客更改“不可更改”机票的请求。

然而,Opus 4.5却想出了一个创造性的解决方案:它先将机票从“基础经济舱”升级为“普通经济舱”,然后再为乘客更改了航班。这一完全符合航空公司政策的“骚操作”,虽然在技术上被判定为“测试失败”,却恰恰展现了其独特的、创造性解决问题的强大能力。

爱图表
爱图表

AI驱动的智能化图表创作平台

爱图表 305
查看详情 爱图表

Claude无处不在:桌面、浏览器、Excel全线接入

随着Opus 4.5的推出,Claude的全系工具链,也迎来了一次重大的升级。

Claude Code现已登陆桌面应用,用户可以同时运行多个本地或远程的会话,协同完成复杂的编程任务。

AI编程进入“超人时代”!Claude Opus 4.5深夜突袭,编程测试碾压人类 - php中文网

Claude for Chrome和Claude for Excel,也已向更多的付费用户开放,让Claude能够直接在浏览器和表格软件中,为用户提供强大的AI助力。

底层大升级:更聪明也更“省钱”

此次Opus 4.5的底层架构,也迎来了一次重大的升级。通过引入“effort(努力程度)”参数、上下文压缩以及高级工具调用等多项新技术,

新模型在实现相同甚至更优结果的情况下,其所消耗的tokens(计算资源)数量,相比前代已大幅减少。例如,在中等effort等级下,Opus 4.5的输出tokens数,竟减少了76%。

此外,通过“Tool Search Tool(工具搜索工具)”等新功能,新模型还能在成百上千种工具之间,进行无缝的协作,从而搭建起更为复杂、协调的多智能体系统。

一个越来越清晰的趋势是:未来我们选择AI大模型,将不再仅仅看重其跑分榜上的排名,而会更看重其“做事”的方式,是否与我们“合拍”。换句话说,选择模型,正变得越来越像挑选一位“同事”。

以上就是AI编程进入“超人时代”!Claude Opus 4.5深夜突袭,编程测试碾压人类的详细内容,更多请关注php中文网其它相关文章!

编程速学教程(入门课程)
编程速学教程(入门课程)

编程怎么学习?编程怎么入门?编程在哪学?编程怎么学才快?不用担心,这里为大家提供了编程速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号