OpenAI 误导了你关于 RLHF
Dispelling misconceptions about RLHF

原始链接: https://aerial-toothpaste-34a.notion.site/How-OpenAI-Misled-You-on-RLHF-1f83f742d9dd80a68129d06503464aff

Please provide the content you want me to translate. I need the text to be able to translate it to readable Chinese. Just paste it here, and I will do my best to provide a clear and accurate translation.

## RLHF 与推理模型:摘要 这次黑客新闻的讨论围绕一篇 Notion 文章,旨在消除对基于人类反馈的强化学习 (RLHF) 及其与较新的“推理模型”之间关系的误解。虽然 RLHF 中使用的技术是基础,但它们不足以训练能够进行复杂推理的模型。 关键区别在于奖励系统。RLHF 依赖于基于与参考答案的*接近程度*的奖励。然而,推理模型需要基于*最终答案*(在“思考标记”之后)满足特定标准的奖励——这是一个更具挑战性的问题。这解释了 RLHF 初始成功与推理模型后期出现之间的差距,并与 Karpathy 的观察结果相符,即有效的 RL 会导致“思考标记”变得非英语。 几位评论员强调了区分“正确”和“成功”输出的重要性,以及由于需要答案来构建问题而导致 RL 难以扩展的悖论。其他人讨论了“世界模型”的作用,以及模型学习*判断*答案质量的必要性,甚至包括它们自身的答案质量,作为一种更有效的学习方法。关于监督微调是否是 RL 的子集存在争论,争论的中心在于是否存在延迟奖励。
相关文章

原文
联系我们 contact @ memedata.com