
距第二篇研究仅过去三天,Thinking Machines 再度发布第三篇技术博客。
本研究由 OpenAI 联合创始人之一 John Schulman 担纲核心作者,公司创始人、前 OpenAI CTO Mira Murati 也第一时间转发支持。

新研究聚焦 LoRA 参数高效微调方法,题为《LoRA Without Regret》,深入探讨了 LoRA 在何种条件下可匹敌全量微调(FullFT)的性能,并提出了一套显著降低调参复杂度的简化方案。
当前主流大模型参数规模动辄上万亿,预训练数据高达数十万亿 token,但实际应用中,下游任务通常数据量小、领域特定。
若采用 FullFT 更新全部参数,计算资源消耗巨大,极不经济。
作为参数高效微调(PEFT)的核心技术,LoRA 通过引入低秩矩阵 A 和 B(参数量远少于原始权重)来捕捉微调增量,但长期存在争议:其性能是否真能追平 FullFT?
John Schulman 与 Thinking Machines 团队给出了明确答案:只要把握关键细节,LoRA 不仅能达到与 FullFT 相同的样本效率,最终性能也完全一致。
以下是三大核心发现:
LoRA 最优学习率约为 FullFT 的 10 倍
研究团队通过系统性实验总结出三点结论:
在中小规模数据集上,LoRA 性能与 FullFT 相当;
LoRA 应用于所有层效果最佳,而非仅注意力层;
LoRA 的最优学习率稳定在 FullFT 的 10 倍左右。
首先,在中小数据集场景下,LoRA 完全可与 FullFT 正面抗衡。
团队使用 Llama 3、Qwen3 等模型,在指令跟随导向的 Tulu3 数据集和推理密集型的 OpenThoughts3 数据集上进行测试。
结果显示,高秩 LoRA(如秩 512)的学习曲线与 FullFT 几乎完全重合,损失值随训练步数呈对数线性下降;
仅当数据集规模远超 LoRA 容量时,其效率才略有下降,而此类情况在常规后训练中极为罕见。

更值得注意的是,在 MATH、GSM 等数学推理类强化学习任务中,即便将 LoRA 秩降至 1,其表现仍与 FullFT 持平。

其背后原因在于强化学习的信息特性:每轮训练仅需通过 scalar 优势函数获取 O(1) 比特信息,而秩 1 LoRA 的参数容量已绰绰有余,甚至存在冗余。

其次,在 LoRA 层的选择上,全层覆盖优于局部应用,打破“仅注意力层有效”的传统认知。
以往许多实践倾向于只在注意力模块部署 LoRA,但本次实验结果颠覆了这一做法。
仅作用于注意力层的 LoRA 表现明显落后,即便提升其秩(如秩 256)以匹配 MLP 层 LoRA(秩 128)的参数量,性能差距依然显著;

而当 LoRA 覆盖所有层,尤其是参数占比最高的 MLP 层与 MoE 层时,性能大幅提升。甚至单独在 MLP 层应用 LoRA,效果已接近“MLP + 注意力”双层配置。

根本逻辑在于:模型梯度主要由参数量大的层主导,只有实现全层覆盖,LoRA 的优化动态才能逼近 FullFT,从而释放全部潜力。
最后,针对 LoRA 超参数调试困难的问题,研究团队提出了大幅简化的调参策略。
许多用户因调参复杂而却步,但研究发现,LoRA 的最优学习率存在清晰规律——约为 FullFT 的 10 倍。(目前为实验观察,理论解释仍在完善中)
该比例在 14 个不同模型于 Tulu3 数据集上的测试中高度稳定。

同时,得益于 1/r 缩放因子的作用,不同秩下的最优学习率差异极小。在秩 4 至 512 范围内,变化不足 2 倍;在短期任务中,秩的影响几乎可忽略。

更具实用价值的是,LoRA 的 4 个潜在超参数中,有 2 个为冗余项。实际调参只需关注“初始更新规模”与“A 矩阵偏离初始状态的步数”两个维度。
此举直接将调参工作量减少一半。

John Schulman:从 OpenAI 到 Thinking Machines
本研究由 OpenAI 联创、曾短暂加入 Anthropic 后迅速转投 Thinking Machines 的 John Schulman 主导。
他博士毕业于加州大学伯克利分校,师从强化学习泰斗 Pieter Abbeel。
在 OpenAI 任职九年期间,他主导了 GPT-3.5、GPT-4 到 GPT-4o 的对齐与后训练工作,被业界誉为“ChatGPT 架构师”。
Google Scholar 显示,其论文引用近 14 万次。
其中最具影响力的是《Proximal policy optimization algorithms》,PPO 算法已成为 RLHF 中强化学习的核心组件。

离开 OpenAI 时,Schulman 表示希望回归核心技术研发。这一愿景促使他加入 Thinking Machines,现以首席科学家身份开启新篇章。
参考链接:
[ 1 ] https://www.php.cn/link/991a05e06918a7f3d363117f9692e9c9
[ 2 ] https://www.php.cn/link/6fc838626a3f3a11ad0c84dd302d6a8a
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见
以上就是ChatGPT 架构师,刚发布了最新研究成果的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号