当前位置：首页 > news >正文

深圳外贸网站开发建设枣庄网站建设制作

news 2025/10/19 23:04:36

深圳外贸网站开发建设,枣庄网站建设制作,万网网站空间,手机网站居中显示1.简介这篇文章提出了一种名为“强化预训练”#xff08;Reinforcement Pre-Training#xff0c;简称 RPT#xff09;的新型预训练范式#xff0c;旨在通过强化学习#xff08;Reinforcement Learning#xff0c;简称 RL#xff09;提升大型语言模型#xff08;LLMsReinforcement Pre-Training简称 RPT的新型预训练范式旨在通过强化学习Reinforcement Learning简称 RL提升大型语言模型LLMs在下一个词元预测任务中的表现。传统的下一个词元预测任务通常依赖于自监督学习而 RPT 则将这一任务重新定义为一个推理过程激励模型在预测之前进行深入思考并通过可验证的奖励信号来评估预测的正确性。文章的核心贡献在于RPT 不仅显著提高了下一个词元预测的准确性还为后续的强化微调提供了更强大的预训练基础。通过将大规模未标注文本数据转化为通用的强化学习任务RPT 实现了无需外部标注或领域特定奖励函数的可扩展预训练。此外RPT 使用基于规则的奖励信号有效避免了复杂奖励模型可能带来的奖励劫持问题同时通过推理过程促进了模型对上下文的深入理解增强了泛化能力。总的来说《Reinforcement Pre-Training》为大型语言模型的预训练提供了一种新的思路通过强化学习激励模型进行推理不仅提升了模型的预测能力还为后续的微调和泛化提供了更坚实的基础。这一方法为未来语言模型的发展开辟了新的方向有望推动自然语言处理技术在更多复杂任务中的应用。论文地址https://arxiv.org/abs/2506.08007 - - 2.论文详解简介大型语言模型LLMs在广泛的任务中展现出了卓越的能力这主要得益于其在海量文本语料上通过可扩展的下一个词元预测目标实现的自我监督范式。这种自我监督的预训练方法已被证明是一种有效的通用预训练方法。与此同时强化学习RL作为一种强大的技术被用于微调大型语言模型使其与人类偏好对齐或增强特定技能例如复杂推理。然而目前在大型语言模型训练中应用强化学习面临着可扩展性和通用性的挑战。基于人类反馈的强化学习虽然在对齐方面效果显著但依赖于昂贵的人类偏好数据并且其学习到的奖励模型容易受到奖励劫持的影响限制了其可扩展性。另一方面使用可验证奖励的强化学习RLVR利用客观的、基于规则的奖励通常来自问答对。虽然这种方法减少了奖励劫持的风险但RLVR通常受到可验证答案的标注数据稀缺的限制使其应用局限于特定领域的微调而非通用预训练。在本研究中作者引入了一种名为强化预训练RPT的新范式弥合了可扩展的自我监督预训练与强化学习的力量之间的差距。RPT将基本的下一个词元预测next-token predict任务重新定义为一个下一个词元推理next-token reason过程。对于预训练语料中的任何给定上下文模型被激励在预测下一个词元之前对其进行推理。它根据预测的正确性相对于语料中真实的下一个词元获得一个可验证的内在奖励。这种方法将通常用于下一个词元预测的大量未标注文本数据转化为一个用于通用强化学习的庞大数据集无需外部标注或特定领域的奖励函数。作者的实验表明RPT显著提高了预测下一个词元的准确性。RPT还为后续的强化微调提供了一个更稳健的预训练基础从而实现了更好的最终任务性能。扩展曲线显示在RPT框架下增加的训练计算量能够持续提高下一个词元预测的准确性显示出其作为一种可持续扩展策略的潜力。这些结果表明强化预训练是一种有效且有前景的新范式能够推动大型语言模型预训练的发展。 - 初步下一个词元预测next token predictNTP 下一个词元预测是现代大型语言模型的基本训练目标。给定来自训练语料的输入序列模型被训练以最大化以下目标函数其中表示语言模型的参数。使用可验证奖励的强化学习RLVR RLVR采用强化学习目标通过可验证答案来增强特定技能。RLVR需要一个标注好的问答对数据集。对于数据集中的特定问答对大型语言模型生成一个回答。一个确定性的验证器 V 计算可验证奖励 r V(o, a)模型被训练以最大化预期奖励 - 强化预训练预训练任务下一个词元推理作者提出了语言建模的下一个词元推理任务。给定来自训练语料的输入序列对于每个位置前缀被视为上下文而真实的下一个词元是。在下一个词元推理任务中模型需要在生成下一个词元的预测之前生成一个思维链推理序列记为。整体模型响应为。如图2所示下一个词元推理的长思维链过程可能涉及各种推理模式如头脑风暴、自我批评和自我纠正。下一个词元推理任务将预训练语料重构为一个庞大的推理问题集将预训练从学习表面词元级相关性转变为理解其背后的隐藏知识并使强化学习扩展成为可能。使用强化学习进行预训练强化预训练RPT通过策略强化学习训练大型语言模型LLMs执行下一个词元推理如图3所示。对于上下文我们提示语言模型生成 G 个响应思维轨迹。每个响应由一个思维链推理序列和一个最终预测序列组成。为了验证的正确性作者引入了前缀匹配奖励这支持验证跨越多个词元或涉及词汇表外词元的预测。设和分别表示真实完成序列和预测的字节序列。用 l 表示的字节长度。作者定义真实完成序列中词元的累积字节长度为有效边界并用表示这个集合。形式上对于的第 i 个输出的奖励定义为其中当预测的字节序列是真实完成序列的精确前缀且其长度 l 匹配任何有效词元边界时奖励为1。设 D 为所有的集合模型被训练以最大化预期奖励预训练设置作者使用OmniMATH数据集进行强化预训练。OmniMATH包含了4428个来自官方如AoPS Wiki和AoPS论坛的竞赛级数学问题和解答。由于许多词元即使没有推理也很容易预测作者在强化预训练之前执行了词元级别的数据过滤。特别地作者使用DeepseekR1-Distill-Qwen-1.5B作为一个小型代理模型。对于每个词元作者计算代理模型在前16个下一个词元上的熵。通过应用熵阈值作者过滤掉低熵位置优先训练需要更大计算努力来预测的具有挑战性的词元。对于每个词元位置 t作者使用一个小型代理模型proxy model来计算该位置上可能的下一个词元的不确定性。代理模型会预测接下来可能出现的前 16 个词元的概率分布。低熵如果一个词元位置的熵值很低说明代理模型对该位置的下一个词元非常确定即只有一个或少数几个词元的概率很高。这种位置通常比较容易预测因为模型可以很容易地确定正确的词元。高熵如果一个词元位置的熵值很高说明代理模型对该位置的下一个词元非常不确定即有多个可能的词元都有较高的概率。这种位置通常需要更多的计算努力来预测。在所有实验中作者使用Deepseek-R1-Distill-Qwen-14B作为基础模型。R1-DistillQwen-14B由于其基本推理能力是强化学习的良好起点。作者使用verl库实现训练框架并使用vllm进行推理。作者采用GRPO算法。在训练期间作者采用8k的训练长度学习率为零KL惩罚以及256个问题的批量大小。对于每个问题采样G8个响应对于展开过程作者使用温度为0.8。从每个响应中作者直接提取跟随特殊标记‘/think’后的最后一个\boxed{}中的完整序列作为模型对下一个词元的预测。从500步开始作者使用动态采样来提高训练效率。作者的主要实验的总训练步数为1000。评估一旦模型经过预训练作者可以直接在下游任务上进行下一个词元预测和强化微调。作者使用这些设置来证明强化预训练提高了大型语言模型的语言建模能力和推理能力。语言建模鉴于下一个词元推理目标我们的模型可以自然地用于语言建模。我们报告下一个词元预测的准确率以评估RPT的语言建模性能和扩展属性。下游任务的强化微调作者以预训练后微调的方式使用RPT模型进行持续的强化学习微调。由于RPT使预训练过程与强化学习对齐因此在训练后期预训练和强化学习之间的目标差距被最小化。作者评估强化预训练过程是否进一步提高了最终任务上的后训练性能。 - 实验语言建模作者在来自OmniMATH的200个样本的保留验证集上评估语言建模性能。遵循作者设置中描述的基于熵的数据过滤策略作者根据难度对验证集中的词元位置进行分类。具体来说作者使用R1-Distill-Qwen-14B计算每个词元位置的熵。然后如果它们的熵分别超过0.5、1.0和1.5的阈值则将位置指定为属于简单、中等或困难的分割。为了进行比较作者报告了以两种不同方式评估的R1-Distill-Qwen-14B的性能1标准下一个词元预测选择概率最高的词元2下一个词元推理在最终预测之前生成一个思维链。作者还包括了Qwen2.5-14B的结果因为它是R1-Distill-Qwen-14B的基础模型。如表1所示与R1-Distill-Qwen-14B相比RPT-14B在所有难度级别上都实现了持续更高的下一个词元预测准确率。值得注意的是它与一个明显更大的模型即R1-Distill-Qwen-32B的性能相匹配图4。这些结果表明强化预训练在捕捉词元生成背后的复杂推理信号方面是有效的并在提高大型语言模型的语言建模能力方面具有强大的潜力。强化预训练的尺度特性在本节中作者研究了强化预训练的扩展属性。下面作者特别分析了RPT与训练计算量C的扩展行为。作者使用以下幂律形式来模拟这种关系其中 P(C) 表示在验证集上的下一个词元预测准确率。和 A 是要估计的参数。作者评估了RPT在不同训练步骤100、200、400、800、1000和1200的下一个词元预测准确率并将其转换为相应的训练计算量。为了评估数据难度的影响作者考虑了通过熵阈值0.5简单、1.0中等和1.5困难过滤的验证分割。更高的阈值对应于对大型语言模型更具挑战性的输入。对于每个难度级别作者根据方程5拟合结果。作者使用决定系数来衡量拟合的好坏这量化了扩展曲线与观察到的数据的拟合程度。如图5所示随着训练计算量的增加RPT的下一个词元预测准确率可靠地提高。在所有难度级别上的高值表明拟合曲线准确地捕捉了性能趋势。使用RPT进行微调为了研究RPT模型是否可以更有效地通过RLVR进行微调作者从Skywork-OR1中随机抽取具有可验证答案的问题进行进一步训练。作者使用256个示例进行训练200个用于测试。遵循SkyworkOR1的数据过滤流程作者使用R1-Distill-Qwen-32B来识别训练中的挑战性实例。作者将训练批量大小和PPO小批量大小都设置为64并训练模型15个周期。在评估期间验证的最大词元数设置为32000温度为0.6。如表2所示经过强化预训练的模型在进一步通过RLVR训练时达到了更高的上限。当使用下一个词元预测目标在同一数据上持续训练时模型的推理能力显著下降。随后的RLVR仅带来缓慢的性能提升。这些结果表明在有限的数据下强化预训练可以快速将从下一个词元推理中学到的加强推理模式转移到最终任务中。结束任务时的Zero-shot性能作者评估了RPT-14B在最终任务上的zero-shot性能。为了进行比较作者评估了R1-Distill-Qwen-14B和R1-Distill-Qwen-32B的下一个词元预测性能以及RPT-14B与R1-Distill-Qwen-14B的推理性能。作者的评估涉及两个广泛认可的基准测试MMLU-Pro一个全面的多任务理解基准评估大型语言模型在各个领域中的能力SuperGPQA一个涵盖285个学科的研究生级推理问题的大规模基准。在推理设置下作者将最大词元数设置为12,288温度设置为0.8。按照之前的工作作者使用多项选择问题格式进行评估并报告准确率。如表3所示RPT-14B在所有基准测试中始终优于R1-Distill-Qwen-14B无论是使用标准下一个词元预测还是作为推理模型进行评估。值得注意的是它还超过了明显更大的R1-Distill-Qwen-32B在下一个词元预测下在SuperGPQA上提高了7个百分点在MMLU-Pro上大约提高了22个百分点。下一个标记推理模式分析作者分析了下一个词元推理和明确问题解决之间推理模式的差异。遵循之前的研究作者统计测量了模型响应中包含推理指示关键词例如“分解”“或者”的比例。作者的分析比较了两个模型在OmniMATH数据集上的思考过程即R1-Distill-Qwen-14B的问题解决和RPT-14B的下一个词元推理基于每个模型的200个采样响应。作者将推理模式分为六种类型过渡切换策略、反思自我检查、分解分解问题、假设提出和验证假设、发散思维探索可能性和演绎逻辑推理。如图6所示RPT-14B的下一个词元推理过程与R1-Distill-Qwen-14B的问题解决明显不同假设模式的使用增加了161.8%演绎模式的使用增加了26.2%。相比之下问题解决过程更多地依赖于分解模式这突出显示下一个词元推理引发了与结构化问题解决在质量上不同的推理过程。作者还在表4中提供了推理模式的一个示例。该示例揭示了模型参与了一个审议过程而不仅仅是简单的模式匹配。它分析了更广泛的语义上下文“计算向量大小”识别关键短语“复习一些...”然后集思广益并权衡多种可能的延续。这涉及到假设生成“下一部分很可能是...”考虑替代方案“或者它可能是...”以及反思结构线索“带有标题的markdown”甚至细粒度的词元级细节“可能有一个空格”。这种多方面的推理包括高级语义理解和低级文本特征展示了模型通过理性探索来推断下一个词元的努力这与RPT培养超越表面相关性的更深层次理解的目标一致。 - - 总结《Reinforcement Pre-Training》这篇文章提出了一种创新的预训练方法旨在通过强化学习提升大型语言模型LLMs在下一个词元预测任务中的表现。该方法的核心在于将下一个词元预测重新定义为一个推理任务激励模型在预测之前进行深入的思考并通过可验证的奖励信号来评估预测的正确性。这种方法不仅显著提高了下一个词元预测的准确性还为后续的强化微调提供了更强大的预训练基础。文章通过一系列实验验证了 RPT 方法的有效性。实验结果表明RPT 在不同难度级别的下一个词元预测任务中均表现出色尤其是在中等和高难度数据上其性能提升更为显著。此外RPT 还展现出了良好的可扩展性随着训练计算量的增加模型的预测准确性持续提升。在零样本设置下RPT 在多个下游任务如 SuperGPQA 和 MMLU-Pro上也取得了优异的性能超越了标准的下一个词元预测模型以及更大规模的模型。为了进一步提高训练效率作者引入了一种基于熵的数据筛选策略。通过计算代理模型在前 16 个下一个词元上的熵作者能够识别出那些对模型来说更具挑战性的词元位置并通过应用熵阈值过滤掉低熵位置。这种策略使得模型能够专注于那些需要更大计算努力来预测的词元从而提升模型对复杂语义和逻辑关系的学习能力。此外文章还对 RPT 模型的推理模式进行了分析发现 RPT 模型在推理过程中更多地依赖于假设生成、逻辑推理等复杂的推理模式而不是简单的模式匹配或问题分解。这种推理模式的转变使得模型能够更深入地理解上下文从而生成更准确的预测。总的来说《Reinforcement Pre-Training》为大型语言模型的预训练提供了一种新的思路通过强化学习激励模型进行推理不仅提升了模型的预测能力还为后续的微调和泛化提供了更坚实的基础。这一方法为未来语言模型的发展开辟了新的方向有望推动自然语言处理技术在更多复杂任务中的应用。如果你觉得这篇文章对你有帮助或者对这个话题感兴趣别忘了点赞、收藏和关注我哦你的支持是我持续创作的动力也让更多人能看到这些有价值的内容感谢你的支持一起学习共同进步

查看全文

http://www.sczhlp.com/news/168644/