华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」-人工智能-PHP中文网

华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」

心靈之曲

发布： 2025-02-07 14:54:37

原创

561人浏览过

deepseek 模型的“顿悟时刻”再研究：自我反思并非训练的关键

近期围绕DeepSeek模型的“顿悟时刻”（模型展现出自我反思等涌现能力）引发广泛关注。然而，新加坡Sea AI Lab等机构的研究者对这一现象进行了深入探究，并得出了一些与先前认知不同的结论。

过去的研究认为，DeepSeek-R1-Zero通过强化学习(RL)实现了“顿悟”，模型学会了自我反思，从而提升了复杂推理能力。此后，多个项目在较小规模模型上复现了类似的训练过程，并观察到响应长度增加的现象，这被认为是“顿悟”的标志。

然而，最新研究表明，这种“顿悟时刻”可能并非RL训练的结果，而是在基础模型中就已存在。研究者在多种基础模型（如Qwen-2.5、DeepSeek-Math等）中，仅通过简单的提示工程，就观察到了类似的自我反思行为，包括使用关键词如“让我检查一下”、“等等”等。这表明，基础模型本身就具备一定的自我反思能力，并非RL训练的产物。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜