当前位置: 首页 > news >正文

网站的简介怎么在后台炒做百度优化排名软件

网站的简介怎么在后台炒做,百度优化排名软件,专业网站策划公司,小程序代理哪家好Contents IntroductionMethodExperimentsReferences Introduction CoT 推理可以有效提升 LLM 推理能力,但 few-shot prompting 无法发挥 CoT 的全部潜力,训练能够生成中间推理步骤 (i.e., rationale) 的 LLM 又需要大量人工标注 rationale,为…

Contents

  • Introduction
  • Method
  • Experiments
  • References

Introduction

  • CoT 推理可以有效提升 LLM 推理能力,但 few-shot prompting 无法发挥 CoT 的全部潜力,训练能够生成中间推理步骤 (i.e., rationale) 的 LLM 又需要大量人工标注 rationale,为此作者提出 STaR (Self-Taught Reasoner),可以仅利用少量含有 rationale 的标注数据和大量不含 rationale 的标注数据,迭代式地生成大量含有 rationale 的数据集并基于此训练能够生成 rationale 的 LLM,有效提升 LLM 的复杂推理能力

Method

在这里插入图片描述

  • Rationale Generation Bootstrapping (STaR Without Rationalization). 给定预训练 LLM M M M 和 small prompt set P = { ( x i p , r i p , y i p ) } i = 1 P \mathcal{P}=\{(x_{i}^{p},r_{i}^{p},y_{i}^{p})\}_{i=1}^{P} P={(xip,rip,yip)}i=1P (e.g. P = 10 P = 10 P=10),其中 x x x 为问题, r r r 为中间推理步骤, y y y 为问题回答,可以利用 few-shot prompting 为一个更大的数据集 D = { ( x i , y i ) } i = 1 D \mathcal D=\{(x_i,y_i)\}_{i=1}^D D={(xi,yi)}i=1D 生成中间推理步骤 r ^ i \hat r_i r^i 和答案 y ^ i \hat y_i y^i,这样就得到了含有中间推理步骤的大规模数据集。此外,作者只保留其中 y ^ i = y i \hat y_i=y_i y^i=yi 的样本,因为这些样本对应的中间推理步骤质量总体来说会更高一些,由此得到 filtered dataset,在此数据集上微调 M M M 得到可以直接生成中间推理步骤的 LLM. 上述步骤为 1 个循环,STaR 会重复上述循环多次,每次都用上一轮循环中得到的最新的生成中间推理步骤的 LLM M n − 1 M_{n-1} Mn1 D \mathcal D D 生成中间推理步骤得到 filtered dataset,然后在该数据集上基于预训练 LLM M M M 重新训练得到新的生成中间推理步骤的 LLM M n M_n Mn;上述优化过程可以被近似看作 policy gradient,其中 J ( M , X , Y ) J(M,X,Y) J(M,X,Y) 为 total expected reward across the dataset
    在这里插入图片描述
  • Rationalization. 上述步骤还有一个缺点,就是如果 D \mathcal D D 中某些难样本始终无法生成正确答案,那么这些样本将永远无法加入 filtered dataset,无法被有效学习;为此,作者给生成错误答案的样本 prompt 中加入提示正确答案的 hint 来引导模型生成中间推理步骤和最终答案
    在这里插入图片描述
  • STaR.
    在这里插入图片描述

Experiments

  • Symbolic Reasoning: Results on Arithmetic.
    在这里插入图片描述在这里插入图片描述
  • Natural Language Reasoning: Commonsense Question Answering.
    在这里插入图片描述
  • Mathematical Reasoning in Language: Grade School Math.
    在这里插入图片描述

References

  • Zelikman, Eric, et al. “Star: Bootstrapping reasoning with reasoning.” Advances in Neural Information Processing Systems 35 (2022): 15476-15488.
http://www.sczhlp.com/news/47808/

相关文章:

  • 用KEGG网站做通路富集分析网页模板免费下载网站
  • 北京电商购物网站镇江网站seo
  • 网站备案需要年检吗seo短视频网页入口引流下载
  • 娄底网站建设是什么企业如何注册自己的网站
  • 给网站做引流多少钱太原百度网站快速排名
  • 外网怎样访问自己做的网站网站seo李守洪排名大师
  • 做网站卖广告百度人工服务
  • 上饶网站建设企业seo及网络推广招聘
  • 公司网站维护费 入什么科目seo优化与sem推广有什么关系
  • flash网站制作市场调研报告范文3000字
  • 北京 企业网站开发福州网seo
  • 网站绑定微信账号seo诊断网站
  • 做网站前怎么建立数据结构企业短视频推广
  • 南阳微网站制作北京seo排名公司
  • 哪个网站做兼职靠谱吗沪深300指数
  • 哪个网站可以做公众号封面2345网址导航下载
  • 网站上传源码后怎么弄今日重大财经新闻
  • 网站推广营销策划企业网站营销的优缺点
  • 有table做的网站谷歌首页
  • 福州做网站哪家好百度推广有哪些推广方式
  • 新闻网站建设评比规则瑞昌网络推广
  • 网站节假日喜庆头部背景换肤js代码 带关闭按钮谷歌浏览器官网下载手机版
  • 南京定制网站哪个好google推广服务商
  • 怀仁建设局网站seo综合查询是啥意思
  • 怎么做云购网站吗网站优化设计的基础是网站基本要素及每个细节的优化
  • 站长工具查询视频网站建设深圳公司
  • 网站批量做https网络seo优化
  • 专注微商推广的网站网页设计首页
  • 郑州市疫情防控新闻发布会seo综合查询怎么用
  • 域名绑定网站需要多久2345网址导航电脑版官网