当前位置: 首页 > news >正文

Search-R1论文浅析与代码实现

GitHub: https://github.com/PeterGriffinJin/Search-R1

论文: link1, link2

Motivation

使用seach engine给reasoning LLM赋能

Method

image-20251021113633265

在PPO的基础上,基于给定的Search Egine \(R\),进行轨迹生成。

\[J_{PPO}(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D}, o\sim{\pi_{old}(\cdot|q;R)}}\frac{1}{\sum_{t=1}^{|o|}I(o_t)} \min[\frac{\pi_{\theta}(o_t|q, o_{<t};R)}{\pi_{old}(o_t|q,o_{<t};R)} A_t, clip(1-\epsilon, 1+\epsilon, \frac{\pi_{\theta}(o_t|q,o_{<t};R)}{\pi_{old}(o_t|q, o_{<t};R)})A_t] \]

其中需要对\(R\)返回的token进行mask

\[I(o_t) = \begin{cases} 0, & o_t\mathrm{\ is\ a\ retrived\ token};\\ 1, & otherwise; \end{cases} \]

Experiments

image-20251021114918946

默认使用PPO,整体效果来看search-r1强化是有效的。training dataset来自NQ和Hotpot QA

  • PPO vs GRPO

    认为PPO比GRPO更加稳定,效果更好;GRPO收敛更快

    image-20251021115656035

    image-20251021115618888

  • Instruct model vs base model

    认为虽然instruct model在最开始的reward要优于base model,但是在step的后期,两者reward是可比的,且base model的效果优于instruct model。

    (我认为,这里instruct好于base,可能是因为instruct后,模型的多样性下降了(因为RL的对齐),导致模型在search task的探索能力下降。但是,WebDancer等文章均使用的是Instruct model,我认为是那些工作 并不是一上来就search RL的,而是先做RFT的SFT,想让instruct model适应RL的格式,并注入search task的领域知识(planing能力、工具调用能力、总结能力等等)。如果是对base model做post-training的RFT(数据量可能不大),base model会出现指令不遵循的问题。因此在SFT+RL的后续WebAgent的工作中,一半以Instruct model为基座。)

    image-20251021115930524

    image-20251021115918404

  • Response length and valid study

    • early stage:response length明显下降,同时reward有小幅度提升(更好的理解search 任务,输出更精简)
    • latter stage:response length回升,reward也提升(可以发现是seach call的次数提升导致)

    image-20251021120743669

  • ablation of retrived token mask

    mask是必要的,因为model的预测目标本就不是 预测出retrieved token,而是学会工具调用与计划总结

    image-20251021122034355

    image-20251021121917794

  • Number of Retrieved Passages Study in SEARCH-R1 Training

    召回的docs不是越多越好(actor model总结时会更容易出现幻觉或是遗漏细节),也不是越少越好(巧妇难为无米之炊)

    image-20251021122054986

  • group size of GRPO

    GRPO的size 大的话,效果好收敛快,但是不太稳定(感觉是论文工作设计有问题,我没有遇到过这种reward sharp decrease)

    image-20251021122255511

Conclusion

提出了agent下的RL方法,但是没有构建sft的轨迹数据,导致无法学到 planing规划、单一工具调用、多工具关系的能力。

代码实现

待更新。。。

http://www.sczhlp.com/news/216103/

相关文章:

  • 软件工程第三次作业——结对作业
  • 商务网站要怎么设计表白视频制作软件app
  • 如何网站建设全包商务网站开发实训体会
  • 罗湖网站建设深圳信科正邦logo设计
  • 如何查询网站点击率昆明市哪里有网站建设
  • 商城网站的建设嵌入式软件开发公司
  • 三门峡市建设局官方网站网站页面策划怎么做
  • 如何做后端网站管理网站建设的意见建议
  • 网站建设图文片网上做问卷调查网站
  • 公司建网站哪家网址大全免费下载安装
  • 建设银行官方网站认证网站开发工程师好吗
  • 免费做图网站有哪些免费的会员卡管理软件
  • word做招聘网站漫画网站做任务给金币
  • 网站如何做绿标一般网站的架构
  • 用层还是表格做网站快ppt 如何做网站交互式
  • 网站开发所需技能网站采用什么字体
  • 做seo推广公司网站大连新图闻科技
  • 手机制作封面教程网站哪个网站做系统
  • 宁波网站制作哪家优惠多全国备案网站数量
  • 网站建设管理中se是什么意思网店seo
  • 自己做企业网站的步骤电子商务网站建设财务预算
  • 长沙专业网站制作河南做网站的公司
  • 建设网站怎么提需求模拟百度搜索词进入网站
  • 网站框架布局深圳网络营销收费标准
  • 网站开发软件教程百度站长平台网站提交
  • 建公司网站哪家公司好建立文档
  • 广平企业做网站推广杭州网站seo外包
  • 在线建网站做班级相册网站的目的意义
  • 杭州网站建设公司服务wordpress 加载图片
  • NITEX:构建时尚新供应链的数字平台与技术架构