即使您使用不正确的奖励,为什么该模型可以提
作者:365bet网页版 发布时间:2025-06-10 13:18
本文的主要作者是Lu Ang和Xie Ruobing。 Lu Ang是中国人民人大学的一名博士生。您的研究方向是对语言模型结构的优化,其主管是Yang Louis教授。 Xie Ruobing是Tencent的首席研究员。您的研究地址是大型语言模型和推荐系统。最近的一篇文章表明,人民人大学和腾讯研究人员的研究人员表明,语言模型可靠地奖励加强学习噪声,即使是奖励的很大一部分(正确答案的0分,不正确的反应的1分)也不会显着影响下游的任务的执行。研究人员解释说,通过加强学习改善后续任务的关键不仅是奖励的准确性,而且如果模型可以产生高质量的思维过程。语言模型可以达到很高仅在奖励奖励模型退出的重要思维单词的频率时,下游任务中的最大性能,而不是基于响应的精度奖励。这表明,加强学习可以通过允许模型学习采用适当的思维途径来解决正确答案来改善下游任务。该模型在培训前阶段获得了相关的基本问题解决技能。因此,在训练前的阶段提高功能仍然很重要。研究人员还展示了基于思维模式的极简主义奖励如何有效地调整奖励模型,从而改善了NLP任务的语言模型的性能,这使小型模型可以通过增强学习成功地获得思想技能。纸质地址:https://huggingface.co/papers/2505.22653代码链接:https://github.com/trestad/noisy-rewards-rewards-rewards-rewards-in-re-rre-rre-rre tesque,基于简单的tesque,基于简单基于简单塔式基于Simoque基于简单塔式基于简单塔式基于简单塔式基于简单塔式基于简单塔式基于简单塔式基于简单tesque的简单塔式的tesque,基于简单的tesque,基于基于简单的TESQUE基于简单的Tesque,基于基于简单的Tesque,基于基于简单TESQUE的简单Tesque,基于基于简单Tesque的简单Tesque,基于基于Simple Tesque的简单Tesque。 Simple Tesque Based On Simple Tesque Based On Simple Tesque Based On Simple Tesque Based On Simple Tesque Based on Simple Tesque based on Simple Tesco based on Tesco Simple Basedin simple tesco based on simple tesco based on simple tesco based on simple simple tesque based on simple tesco based on simple tesque simple tesque based on simple tesque based on simple tesque based on simple tesque based on simple tesque based on simple tesque based基于简单的tesque,基于简单的悬崖上的简单塔式,基于简单的塔式浅黄色,基于简单的塔式基于简单的塔式基于简单的塔式基于简单的塔式,基于TeSque中的简单tesque,这是Tesque中的简单tesque,这是Th的作者奖励的E品种人为地控制奖励的噪音(例如,在基于响应的准确性投资奖励功能的结果时,正确答案为0分,错误的答案为1分)。这对于研究很有用。在训练QWEN-2.5-7B模型时,实验表明,即使P的值非常库,模型性能也会在下游的任务中大大退化。当P值达到50%时,训练效果开始崩溃(即完全随机的奖励)。这种现象提出了一个重要的问题:即使模型被错误的响应奖励,培训效果为什么不改变?图1:在不同程度的奖励投资之后,在数学500数据集中QWEN-2.5-7B的准确性变化,水平轴是训练步骤的数量。为了回应这一现象T仍然为模型的输出提供奖励值。研究人员认为,这些有价值的信息反映在模型的思维过程中。当一个模型生成“第一个”模型,以“这些因素”,“最终”,“最终”和“ fixnal”的方式考虑方式时,无论最终响应是否正确,这种思维过程本身都在奖励。为了检验这一假设,作者计算了数学任务中QWEN-2.5-7B的QWEN-2.5-7B高频思维的关键字的产生。该模型的输出包括这些高频思维的关键字。相应的奖励仅使用RPR机制通过案例研究经常使用,该案例研究在减少后“打开”模型在强化学习中获得了正确的响应,语言模型的改进主要来自生产格式的转换,而不是获得新知识。TAS是基于正确的答案。语言模型可以通过开放任务的奖励模型的鲁棒性。在这些模型中训练了QWEN-2.5-7B。作者表明,奖励模型的准确性越高,测试集模型的功率输出越低。在不同的训练步骤中选择控制点作为培训的奖励模型。使用%,具有不同奖励模型的训练有素的语言模型在下游任务中具有相似的主观资格分数。这种现象与数学任务的观察结果一致,这表明语言模型可以支持一定程度的奖励噪声。但是,如果补偿模型的准确性小于75%,则训练效果会大大降低。当精确度下降到65%时,模型性能在高度精度奖励模型中获得的结果显着差。这可能表明该任务的QWEN-2.5-7B噪声公差有限。图4:由D培训的主观评估语言模型helpsteer3任务的IFFERTERT奖励模型此发现可以为许多研究人员提供安慰。许多应用程序方案不需要搜索奖励模型的高精度。作者还考虑了改善现有奖励模型以改善下游任务的方法,而他们实际上无法获得“足够且充分的奖励”模型。为此,作者建议通过RPR调整奖励模型。如果奖励模型将出口限定为低分,但是具有良好的思维模式(即RPR得分很高),则该低分是假阴性的,并且应根据这种思想模式通过RPR机制来补偿奖励模型的THEDEPARTURE。因此,作者在HelpSteer3任务中验证了,在RPR校准后,即使薪酬模型的精度为65%,模型性能也接近由原始精度奖励模型训练的效果。同时,校准了Precis之后离子奖励模型为85%,该模型在下游任务中的性能得到了进一步改进,从而打破了作者拥有的奖励模型的质量限制。图5:RPR校准后,通过所有奖励模型训练的语言模型的质量得到了提高。作者的另一个重要发现是,即使使用作者拥有的最准确的奖励模型(精度为85%),QWEN-2.5-3B在helpsteer3任务中具有培训障碍,这意味着La Offerture长度急剧下降,只剩下几十个剩余的令牌。但是,经过RPR校准后,Model 3B在许多复杂的开放任务中提出了良好的问题解决想法,例如成功完成培训,避免阻塞,取得良好的结果并根据说明执行PPT。图6:奖励模型的RPR校准后,Model 3B也可以成功地培训帮助任务。使用未调整的奖励模型时,RL崩溃了。研究人员想魔鬼根据结果​​来理解奖励噪声的语言模型的鲁棒性,并强调它不是通过使用RPR独奏来教授新知识,而是在输出样式和卓越的思维模式中形成了变化。此外,思维模式的重要性是用奖励模型进行培训,使Abthey验证并提供了新的想法,并提供了新的想法来改善强化学习后的培训算法。作者说,如果强化学习仅着眼于思维模式的培养,那么模型的前pro -pro -Control的改善仍然值得一笔不断的投资,因为加强措施的能力是后来任务的瓶颈。任务比QWEN模型更糟糕。
电话
020-66888888