OpenAI 发布 GPT-5.1-Codex-Max，专为复杂软件工程任务打造-IT新闻-PHP中文网

OpenAI 发布 GPT-5.1-Codex-Max，专为复杂软件工程任务打造

聖光之護

发布： 2025-11-20 16:29:01

原创

569人浏览过

openai 今日发布了全新升级的 gpt-5.1-codex-max，定位为专为应对复杂、长期且多阶段软件工程挑战而设计的下一代代码大模型。该模型不仅能够编写和补全代码，还能在长达数十万字的上下文中持续推动大型项目进展。

OpenAI 发布 GPT-5.1-Codex-Max，专为复杂软件工程任务打造

本次最核心的技术突破在于引入了一种名为 compaction 的上下文压缩机制：模型在执行任务过程中会自动整理记忆，提炼并保留关键信息，从而实现在“超长上下文”环境下的稳定运行，避免因上下文过载导致的状态丢失或性能下降。

GPT-5.1-Codex-Max 经历了海量真实开发场景的训练，涵盖前端开发、错误调试、数学逻辑推理、PR 文案撰写以及代码审查等多个环节。在多项工程化测试中，其表现无论是效率还是准确性均显著超越前代模型，同时大幅降低了令牌消耗。

评估项目	指标／表现	说明
SWE-bench Verified (n = 500)	73.7% → 77.9%	在大规模软件工程基准测试中，从上一代 GPT‑5.1‑Codex 到 Max 版本实现明显跃升。
SWE-Lancer IC SWE	66.3% → 79.9%	针对独立开发者任务集的表现大幅提升，展现更强自主开发能力。
Terminal-Bench 2.0	52.8% → 58.1%	在命令行与终端操作类任务中也取得可观进步。
上下文长度及 “长期任务”能力	支持跨多个上下文窗口协同工作，可持续运行数小时乃至超过 24 小时不中断。	体现其对长周期、项目级任务的强大支撑能力。
令牌效率（token efficiency）	在中等推理强度模式下，相比上代减少约 30% 的思考令牌使用量，同时输出质量更高。	有效降低调用成本，提升整体响应效率。
安全 / 不安全内容评估 (Production Benchmarks)	例如 “illicit” 类别得分由 0.860 提升至 0.920；“sexual/minors” 从 0.901 升至 0.970。	显示在内容安全控制方面有所增强，但仍存在边界限制。
网络安全 (Cybersecurity) 能力	在多种模拟攻击测试中： – 网络渗透模拟平均成功率达 37% – 漏洞挖掘与利用达 41% – 规避检测（Evasion）达到 43%	虽为当前最强水平，但官方强调尚未达到“高能力”标准。
生物／化学领域 (Bio & Chem) 能力	面对长篇幅生物风险相关提问，模型拒绝回应率达到 100%。	表明该领域被列为“高风险”，OpenAI 已实施严格封控策略。