openai 今日发布了全新升级的 gpt-5.1-codex-max,定位为专为应对复杂、长期且多阶段软件工程挑战而设计的下一代代码大模型。该模型不仅能够编写和补全代码,还能在长达数十万字的上下文中持续推动大型项目进展。

本次最核心的技术突破在于引入了一种名为 compaction 的上下文压缩机制:模型在执行任务过程中会自动整理记忆,提炼并保留关键信息,从而实现在“超长上下文”环境下的稳定运行,避免因上下文过载导致的状态丢失或性能下降。
GPT-5.1-Codex-Max 经历了海量真实开发场景的训练,涵盖前端开发、错误调试、数学逻辑推理、PR 文案撰写以及代码审查等多个环节。在多项工程化测试中,其表现无论是效率还是准确性均显著超越前代模型,同时大幅降低了令牌消耗。
| 评估项目 | 指标/表现 | 说明 |
|---|---|---|
| **SWE-bench Verified (n = 500)** | 73.7% → 77.9% | 在大规模软件工程基准测试中,从上一代 GPT‑5.1‑Codex 到 Max 版本实现明显跃升。 |
| **SWE-Lancer IC SWE** | 66.3% → 79.9% | 针对独立开发者任务集的表现大幅提升,展现更强自主开发能力。 |
| **Terminal-Bench 2.0** | 52.8% → 58.1% | 在命令行与终端操作类任务中也取得可观进步。 |
| **上下文长度及 “长期任务”能力** | 支持跨多个上下文窗口协同工作,可持续运行数小时乃至超过 24 小时不中断。 | 体现其对长周期、项目级任务的强大支撑能力。 |
| **令牌效率(token efficiency)** | 在中等推理强度模式下,相比上代减少约 **30% 的思考令牌使用量**,同时输出质量更高。 | 有效降低调用成本,提升整体响应效率。 |
| **安全 / 不安全内容评估 (Production Benchmarks)** | 例如 “illicit” 类别得分由 0.860 提升至 0.920;“sexual/minors” 从 0.901 升至 0.970。 | 显示在内容安全控制方面有所增强,但仍存在边界限制。 |
| **网络安全 (Cybersecurity) 能力** | 在多种模拟攻击测试中: – 网络渗透模拟平均成功率达 37% – 漏洞挖掘与利用达 41% – 规避检测(Evasion)达到 43% | 虽为当前最强水平,但官方强调尚未达到“高能力”标准。 |
| **生物/化学领域 (Bio & Chem) 能力** | 面对长篇幅生物风险相关提问,模型拒绝回应率达到 100%。 | 表明该领域被列为“高风险”,OpenAI 已实施严格封控策略。 |
OpenAI 强调,随着模型能力的增强,相应的安全责任也随之上升,尤其是在网络安全、生物与化学等敏感领域,必须配套更严密的防护机制。尽管其在网络攻防仿真中展现出一定潜力,但距离真正“高威胁能力”仍有差距。
目前,GPT-5.1-Codex-Max 已成为 Codex 系列产品的默认核心引擎,并正逐步向开发者群体和企业用户开放接入。
源码地址:点击下载
以上就是OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号