执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路

DDD
发布: 2025-01-27 20:44:30
原创
1234人浏览过

google deepmind 和 google research 联合发表的论文提出了一种名为 infalign (推理感知型对齐) 的新框架,旨在优化生成式语言模型在特定推理过程下的胜率。 传统的 kl 正则化强化学习 (kl-rl) 方法通常忽略推理阶段,导致训练目标与实际应用脱节。infalign 则直接针对推理时间胜率进行优化。

该论文指出,直接优化推理时间胜率非常困难,但可以通过巧妙地设计奖励函数来实现。InfAlign 的核心思想是:设计一个新的奖励函数 R,该函数基于原始奖励模型 r、推理过程 T 和参考策略 π_ref。通过求解带有变换后奖励 R 的 KL-RL 问题,InfAlign 能够有效地逼近最优解,从而最大化推理时间胜率。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文中给出了一个数学框架,证明了对于特定类型的语言模型(δ 限定模型),存在一个最优的奖励变换 R,能够将推理时间胜率优化问题转化为一个可解的 KL-RL 问题。 该框架的核心是一个耦合方程组,描述了最优策略和变换后奖励之间的关系。

然而,直接求解该方程组在计算上存在挑战。因此,论文提出了一种更实用的方法:CTRL (校准和变换式强化学习)。CTRL 算法包含三个步骤:奖励校准、奖励变换和标准 KL-RL 求解。 论文中详细介绍了如何通过经验校准和分位数方法来近似计算校准奖励,以及如何选择合适的奖励变换函数 Φ 来优化不同推理过程(例如 best-of-N 和 worst-of-N)下的胜率。

MeDo
MeDo

无代码AI应用开发,百度秒哒海外版

MeDo 126
查看详情 MeDo

图片

实验结果表明,InfAlign 框架和 CTRL 算法能够显著提升语言模型在 best-of-N 和 worst-of-N 推理过程下的胜率,并且相比于传统的 KL-RL 方法具有更好的胜率-KL 散度权衡。 特别是,论文发现奖励模型通常没有正确校准,而经过校准的奖励能够显著提高模型的性能。 论文还探讨了不同奖励变换函数的有效性,并为 best-of-N 和 worst-of-N 过程推荐了最佳的变换函数。

论文地址:https://www.php.cn/link/7fb15019103809d7311d26d2e8bb47ed

以上就是执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路的详细内容,更多请关注php中文网其它相关文章!

相关标签:
谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号