首页 > 新闻 > IT新闻 > 正文

OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造

聖光之護
发布: 2025-11-20 16:29:01
原创
569人浏览过

openai 今日发布了全新升级的 gpt-5.1-codex-max,定位为专为应对复杂、长期且多阶段软件工程挑战而设计的下一代代码大模型。该模型不仅能够编写和补全代码,还能在长达数十万字的上下文中持续推动大型项目进展。

OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造

本次最核心的技术突破在于引入了一种名为 compaction 的上下文压缩机制:模型在执行任务过程中会自动整理记忆,提炼并保留关键信息,从而实现在“超长上下文”环境下的稳定运行,避免因上下文过载导致的状态丢失或性能下降。

GPT-5.1-Codex-Max 经历了海量真实开发场景的训练,涵盖前端开发、错误调试、数学逻辑推理、PR 文案撰写以及代码审查等多个环节。在多项工程化测试中,其表现无论是效率还是准确性均显著超越前代模型,同时大幅降低了令牌消耗。

评估项目 指标/表现 说明
**SWE-bench Verified (n = 500)** 73.7% → 77.9% 在大规模软件工程基准测试中,从上一代 GPT‑5.1‑Codex 到 Max 版本实现明显跃升。
**SWE-Lancer IC SWE** 66.3% → 79.9% 针对独立开发者任务集的表现大幅提升,展现更强自主开发能力。
**Terminal-Bench 2.0** 52.8% → 58.1% 在命令行与终端操作类任务中也取得可观进步。
**上下文长度及 “长期任务”能力** 支持跨多个上下文窗口协同工作,可持续运行数小时乃至超过 24 小时不中断。 体现其对长周期、项目级任务的强大支撑能力。
**令牌效率(token efficiency)** 在中等推理强度模式下,相比上代减少约 **30% 的思考令牌使用量**,同时输出质量更高。 有效降低调用成本,提升整体响应效率。
**安全 / 不安全内容评估 (Production Benchmarks)** 例如 “illicit” 类别得分由 0.860 提升至 0.920;“sexual/minors” 从 0.901 升至 0.970。 显示在内容安全控制方面有所增强,但仍存在边界限制。
**网络安全 (Cybersecurity) 能力** 在多种模拟攻击测试中: – 网络渗透模拟平均成功率达 37% – 漏洞挖掘与利用达 41% – 规避检测(Evasion)达到 43% 虽为当前最强水平,但官方强调尚未达到“高能力”标准。
**生物/化学领域 (Bio & Chem) 能力** 面对长篇幅生物风险相关提问,模型拒绝回应率达到 100%。 表明该领域被列为“高风险”,OpenAI 已实施严格封控策略。

OpenAI 强调,随着模型能力的增强,相应的安全责任也随之上升,尤其是在网络安全、生物与化学等敏感领域,必须配套更严密的防护机制。尽管其在网络攻防仿真中展现出一定潜力,但距离真正“高威胁能力”仍有差距。

AutoGLM沉思
AutoGLM沉思

智谱AI推出的具备深度研究和自主执行能力的AI智能体

AutoGLM沉思 129
查看详情 AutoGLM沉思

目前,GPT-5.1-Codex-Max 已成为 Codex 系列产品的默认核心引擎,并正逐步向开发者群体和企业用户开放接入。

源码地址:点击下载

以上就是OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号