原文
| ||||||||||
| ||||||||||
![]() |
原始链接: https://news.ycombinator.com/item?id=43760625
Hacker News 上正在讨论一篇题为“强化学习是否激励大型语言模型超越基础模型进行推理?”的研究论文。原帖作者不喜欢这种问句式的标题,并总结了论文的发现:强化学习 (RL) 提高了大型语言模型 (LLM) 的采样效率,但代价是最终的推理能力下降。经过 RL 训练的模型在尝试次数有限的情况下优于未经 RL 训练的模型,而未经 RL 训练的模型在尝试次数更多的情况下最终会超越它们。 另一位评论者指出了论文方法论中的缺陷,特别质疑了“思维链有效性”的检验。他们举了一个例子,模型最终得到了正确的答案,尽管中间出现了多个巧合抵消的算术错误。这位评论者建议调查 RL 的采样效率提升究竟是由于改进的算术能力(可能通过工具实现)还是更好的策略性问题解决能力。这质疑了 RL 在推理任务中优势的真正来源。
| ||||||||||
| ||||||||||
![]() |
"RL boosts sampling efficiency but reduces the reasoning capacity boundary."
Perhaps better to put it like this: Given one, or few attempts, RL trained models beat non-RL models. Given many attempts, non-RL models come up with better answers.
reply