微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 科技周边 > 人工智能 > 正文

GRPO在《时空谜题》中击败o1、o3-mini和R1

雪夜

发布： 2025-03-27 17:32:13

原创

885人浏览过

openpipe平台最新研究：开源模型通过强化学习在复杂推理任务中超越顶级闭源模型

OpenPipe平台近期发布的一项研究显示，通过运用GRPO强化学习算法，其团队成功地使开源模型Qwen在重度推理游戏《时空谜题》中的表现超越了DeepSeek R1、OpenAI的o1和o3-mini等业界领先模型。该研究由Ender Research的强化学习研究员Brad Hilton和OpenPipe创始人Kyle Corbitt共同完成。

研究结果表明，该方法不仅将模型与Claude Sonnet 3.7的性能差距缩小到个位数百分比，同时实现了超过100倍的推理成本优化。研究报告详细介绍了任务设计、超参数调整经验以及基于Torchtune框架构建的完整训练方案。

研究背景：大型语言模型的推理能力瓶颈

自OpenAI发布o系列推理模型以来，基于强化学习训练的LLM发展迅速。然而，逻辑演绎能力仍然是这些模型的短板，主要体现在以下三个方面：

难以稳定追踪所有相关细节；
无法保持逻辑严密的推演过程；
多步推理衔接可靠性不足。

即使是顶尖模型，也经常会出现人类容易识别的低级错误。

《时空谜题》基准测试：挑战现有模型的推理极限

为了评估模型的推理能力，研究团队使用了自定义的推理任务——《时空谜题》。该谜题类似于经典桌游Cluedo，但增加了时间和动机维度，并使用OR-Tools的CP-SAT求解器生成谜题。

研究人员对DeepSeek R1、OpenAI的o1和o3-mini、Anthropic的Claude Sonnet 3.7以及Qwen 14B和32B模型进行了基准测试。结果显示，Claude Sonnet 3.7表现最佳，而未经调优的Qwen模型性能相对较弱。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GRPO在《时空谜题》中击败o1、o3-mini和R1

GRPO算法与高效训练方案：突破性能瓶颈的关键

AutoGLM沉思

AutoGLM沉思

智谱AI推出的具备深度研究和自主执行能力的AI智能体

AutoGLM沉思

129

AutoGLM沉思

研究团队采用GRPO强化学习算法对Qwen模型进行训练。与PPO等传统方法相比，GRPO算法在简化训练过程的同时，也取得了显著的性能提升。

训练过程主要包括以下步骤：

模型生成多个答案；
对答案进行评分，计算优势值；
利用优势值引导策略梯度更新模型参数；
重复上述步骤，直至达到最佳性能。

研究中还使用了vLLM推理引擎、HuggingFace Transformers AutoTokenizer以及Torchtune库，并对参数进行了精细的调优，以提高训练效率和模型性能。Torchtune库提供的功能包括激活检查点、激活卸载、量化和PEFT等。

研究结果：显著提升性能并降低成本

经过100多次迭代训练，Qwen模型的推理性能得到了显著提升，140亿参数的模型接近Claude Sonnet 3.7的水平，而320亿参数的模型则几乎达到了Sonnet的性能。

更重要的是，该方法大幅降低了推理成本，实现了超过100倍的优化。研究还发现，仅需16个训练样本就能实现高达10-15%的性能提升。

结论：强化学习在提升开源模型推理能力方面的巨大潜力

这项研究证明了强化学习在提升开源模型推理能力方面的巨大潜力。通过GRPO算法和高效的训练方案，即使是相对较小的开源模型也能在复杂的推理任务中达到甚至超越顶级闭源模型的性能，同时大幅降低成本。这为开源社区提供了新的方向，也为未来LLM的发展提供了新的思路。

GRPO在《时空谜题》中击败o1、o3-mini和R1

以上就是GRPO在《时空谜题》中击败o1、o3-mini和R1的详细内容，更多请关注php中文网其它相关文章！

相关标签：

ai claude deepseek qwen 架构算法

大家都在看：

Generative UI— 谷歌推出的生成式交互界面AI技术工作用ai会导致什么腾讯AI语音转写怎么处理长音频文件_腾讯AI长语音转写优化教程 AI图片生成视频免费软件手机一键做视频AI工具夸克AI智能平台官网链接夸克AI官方主页智能助手访问地址

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：ai人工智能语音软件排行榜 2025国内ai人工智能语音软件前十名推荐下一篇：人工智能时代人才如何培养

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

如何安装php自动化测试工具_接口测试与压力测试工具配置方法

2025-11-18 11:36:07
基金从业资格考试网官网入口基金从业资格考试官方报名入口

2025-11-18 11:56:02
国家贴息专区双11有地区限制吗_双11国家贴息适用地区与范围详细解读

2025-11-18 12:01:56
联想官网双11国家贴息额度多少_联想官网国家贴息贷款额度及申请条件解析

2025-11-18 12:06:06
社保费管理客户端怎么进行年度汇算_社保费管理客户端年度汇算操作指南

2025-11-18 12:12:05
mysql触发器可以调用存储过程吗_mysql触发器与存储过程的联合使用

2025-11-18 12:13:02
33小说网免费小说入口_33小说网全本小说在线阅读官网

2025-11-18 12:14:02
Laravel框架怎么使用Facade_Laravel门面模式与静态代理原理

2025-11-18 12:17:02
php代码如何发送电子邮件_php代码实现邮件自动发送的配置步骤

2025-11-18 12:36:07
摩托罗拉VerveBuds2和联想LivePods2哪款音质更均衡_摩托罗拉与联想平衡音质蓝牙耳机对比

2025-11-18 13:17:16

最新问题

27.98万元起！全新问界M7上市57天交付量突破30000台 11月20日，全新问界M7上市仅57天，交付量已突破3万台大关。根据官方公布的信息，这款车型于2025年9月23日正式发布，售价区间为27.98万元至37.98万元。新车共推出12种配置选择，涵盖增程与纯电两种动力形式，并提供5座和6座两种座椅布局，满足多样化的用户需求。据小编了解，全新问界M7在上市首日24小时内，大定订单数量便迅速突破4万台，展现出强劲的市场热度。其热销背后的核心驱动力，源自产品力的全面升级。公开资料显示，该车型历时三年研发，累计投入高达40亿元，在外观设计、座舱空间、操控性

2025-11-20 16:07:16

191

即梦4.0如何使用智能排版助手_即梦4.0自动优化图文排版的功能使用方法即梦4.0智能排版助手可自动优化图文布局，提升阅读体验。在iPadPro运行环境下，用户需先开启功能：打开应用后进入编辑界面，点击右上角“工具箱”，启用“智能排版助手”。启用后，在含图片与文字的文档中长按图片，选择“应用智能排版”，系统将生成多种布局方案供预览与选择。用户还可进入“设置-排版偏好”自定义行高、对齐方式、标题间距等参数，使排版更符合个人风格。针对多页文档，可通过“排版中心”使用“批量智能优化”功能，实现全文档统一布局，提升整体一致性与编辑效率。

2025-11-20 16:07:02

546

余承东官宣享界S9T大定破3万刷新国内旅行车销量纪录长久以来，旅行车这一品类在国内消费者眼中一直是：叫好不叫座的状态。小编了解到，在享界S9T发布前的8月，国内销量最多的旅行车不过售出4000台。并且，旅行车这一品类不仅冷门，而且国内消费者基本上只听说过奥迪A6Avant、宝马5系旅行车等BBA豪华车型。而在11月20日，鸿蒙智行首款旅行车享界S9T实现了历史性突破。官方数据显示，自9月16日正式上市以来，享界S9T在66天大定订单已突破3万台，并稳居2025年9-10月中国新能源30万以上中大型轿车销量TOP1，创下国内旅行车市场销量纪录，这一

2025-11-20 16:02:02

651

Argus 1.0— 如视推出的全球首个空间大模型 Argus1.0是什么Argus1.0是由如视推出的全球首款支持全景图输入的空间大模型。该模型基于如视积累的近百万套真实高清空间数据进行训练，采用先进的Transformer架构，具备毫秒级实时三维重建能力。它可以从全景图像或普通照片中快速推断出相机位姿、深度信息及点云数据，生成高精度的三维空间结构。Argus1.0具备强大的多源图像兼容性，无论是单张照片、多视角图像还是AI生成图像均可处理，其输出的3D空间质量显著优于现有同类技术。Argus1.0的主要功能全景与普通图像输入支持

2025-11-20 16:00:08

388

59.8万元起！全新宝马X5上市标配智能驾驶辅助系统Pro 11月20日，宝马中国官方宣布新款X5正式上市，售价从59.8万元至74.8万元。新车全系标配M运动曜夜套装、智能驾驶辅助系统Pro、前排座椅通风及前后排座椅加热，其中智能驾驶辅助系统Pro将从2026年1月起全系标配，而座椅通风及加热功能则从2025年11月起全系标配。全新宝马X5据小编了解，新款宝马X5分为三个版本，分别是：xDrive30Li尊享型M运动曜夜套装，售价为59.8万元；xDrive40LiM运动曜夜套装，售价为67.8万元；xDrive40Li尊享型M运动曜夜套装，售价为74

2025-11-20 15:58:01

411

Generative UI— 谷歌推出的生成式交互界面AI技术 GenerativeUI是什么GenerativeUI是谷歌推出的创新AI技术，能让AI根据用户的自然语言提示即时生成完整的、可交互的用户界面。界面可以是网页、工具、游戏或教育应用，完全根据用户需求定制。GenerativeUI通过访问外部工具（如图像生成、搜索引擎）、遵循系统指令及后处理修正实现高质量的动态交互体验。GenerativeUI技术标志着人机交互从“文本对话”向“动态界面共创”转变，为教育、娱乐、数据分析等领域带来全

2025-11-20 15:56:01

923

工作用ai会导致什么 AI提升效率但也增强依赖性，可能导致技能退化；部分岗位被替代同时催生新职业；存在信息错误与决策偏差风险，需人工复核；数据安全和隐私泄露隐患要求规范使用，应选择合规工具并加强管理。

2025-11-20 15:36:43

266

提升模型准确率的有效算法提升模型准确率需结合算法与数据优化。1. 集成学习如随机森林、GBDT和堆叠能增强模型性能；2. 深度学习中Adam优化器、学习率调度和正则化技术可提升收敛性与泛化能力；3. 数据层面通过特征工程、数据增强和类别不平衡处理提高质量；4. 使用贝叶斯优化或AutoML实现高效调参。综合任务特点迭代验证是关键。

2025-11-20 15:36:36

546

丰田发布下一代油车全球畅销SUV威兰达焕新而来　　在新能源车销量占比突破半数、多家车企加码新能源赛道的行业背景下，广汽丰田选择以扎实动作回应油车用户最真实的需求。今天，全新换代威兰达上市发布会隆重举行，这款被官方定位为“下一代油车”的全新车型正式亮相，广汽丰田集团彭总更直言其为“20万以内最好油车”，尽显产品诚意。智能重构：油车也能拥有电车级智能体　　全新换代威兰达率先洞察下一代油车用户的智能化需求，引入电车普遍使用的域控制器架构，从底层重构油车智能，通过域控架构实现算力集中、资源整合，让油车威兰达能像电车一样OTA，为“下一代油车”建构真

2025-11-20 15:25:00

490

腾讯AI语音转写怎么处理长音频文件_腾讯AI长语音转写优化教程分段上传并异步调用API可高效转写长音频。先将音频按5分钟内切片，格式转为WAV或MP3，采样率设为16000Hz；通过腾讯云长语音识别接口上传至COS并发起异步请求，获取TaskId；使用SecretId和SecretKey认证，设置EngineModelType为16k_zh_large，指定声道数；预处理音频降噪、调增益、去静音以提升准确率；配置HTTPS回调地址接收JSON结果，解析后存储文本内容，避免频繁轮询。

2025-11-20 14:57:28

421

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部