当前位置: 首页 > news >正文

学做家庭树网站手机代理ip免费网址

学做家庭树网站,手机代理ip免费网址,深圳网站建设制作企业,滨州改版网站建设服务上一篇文章#xff0c;我们介绍了encoder#xff0c;这篇文章我们将要介绍decoder Transformer-encoder decoder结构#xff1a; 如果看过上一篇文章的同学#xff0c;肯定对decoder的结构不陌生#xff0c;从上面框中可以明显的看出#xff1a; 每个Decoder Block有两个…上一篇文章我们介绍了encoder这篇文章我们将要介绍decoder Transformer-encoder decoder结构 如果看过上一篇文章的同学肯定对decoder的结构不陌生从上面框中可以明显的看出 每个Decoder Block有两个Multi-Head Attention层 第一个Multi-Head Attention层采用了Masked操作所以叫多头掩码注意力模块 第二个Multi-Head Attention就是和encoder的一样不过他的K、V矩阵输入源来自Encoder的输出编码矩阵而Q矩阵是由多头掩码注意力层经过Add Norm层之后的输出计算来的 Add Norm和前面encoder的一样 feed forward它包含一个全连接层对输入特征进行非线性变换并产生输出。在训练过程中Feed Forward会根据损失函数的梯度进行参数更新以优化模型的性能。他的输入层参数和Embedding的维度一样。 Linear是一种简单的神经网络组件通常用于处理线性可分的问题。它包含一个全连接层和一个激活函数对输入进行线性变换并产生输出。与Feed Forward不同Linear在训练过程中不会根据损失函数的梯度进行参数更新因为它的输出取决于输入的线性组合。Linear的长度实际上就是你词向量的种类数量。 softMax把linear的输出做分类概率运算算出每种词向量的概率。 这里我们详细说一下多头掩码注意力模块其他的和encoder中都一样就不详细介绍了。 Masked Multi-Head Attention 在下面第9点介绍多头掩码注意力 在介绍之前我们先来说一下transformer的训练过程网上搜了很多没有找到谁具体讲过所以我就借助“文心一言”来进行了询问大概了解了这个过程但是不能保证正确如果有知道同学看到了欢迎给我留言。 先有encoder的输入“你好吗”也就是问题和decoder的输入“好的很”也就是答案。 把encoder的输入“你好吗”输入encoder中把“你好吗“转化为Embedding然后对Embedding添加position信息decoder也同理。 把添加了pos的Em做成6组QKV那么总共就是18个QKV然后每组都送入一个注意力模块总共有6组注意力模块这6组就称为多头注意力模块然后把这6组的输出经过一个conact和Linear具体可以看上一篇文章合并后输出这个输出就是注意力矩阵。 把注意力矩阵经过残差链接和归一化后放入一个Feed Forward中后再使用一次残差链接和归一化encoder的输出就有了。 接下来我们看decoder的输入在transformer的训练中我们使用的是Teacher Forcing方法我们是告诉了transformer正确的答案是什么的也就是“好得很”。 首先decoder会把encoder的输入做成QK然后放入一个多头注意力模块中接下来一直到Linear的操作和encoder的一样。 decoder中的Linear输入的方法和encoder的一样可以参考上篇文章最后不过linear的输出最后是使用了softmax做分类器。从下图可以看出Linear的输出是和你的词向量类别有关假设你的词向量类别有1w个那么这里就会输出1w的类别如下图然后使用softMax对着些输出做概率计算就可以算出概率最大的词向量是哪个softMax的计算可以参考我的BP神经网络大概方式类似于下面 假如现在经过softMax的运算后最大概率的字是好那么就把这个字和标准答案中的好得很对比一下如果不是好字那么就使用梯度下降法反向去更新两个Feed forward和所有的QKV更新完后回到decoder输入。 接下来把标准答案中的“好”直接输入到decoder的输入下面是带有掩码的多头注意力 经过EMpos还有QKV后我们把他输入了多头掩码注意力模块这里为什么要加个掩码呢掩码又是什么呢我们看下面这张图 我们需要把好字加入到”你好吗”的后面但是我们又不能让多头注意到“好”字后面“得很”所以我们就需要把后面的字给遮起来这个就是掩码。经过softMax的变化可以看到下图 比如“好”字后面的“得很”都是0说明好字只和前面的内容有关系则接下来就是“好”字的[0.37,0.62,0,0]作为多头掩码的输出也可以抽象的看成是把“好”拼在了“你好吗”的后面但是其实是“你好吗”作为QK,好作为V。 接下来就和上面的3一样一直到softMax做出预测如果是预测的不是“尼”就反向更新梯度下降如果是“尼”则把“好尼”送入多头掩码中然后把“好尼”拼在“你好吗”的后面。一直循环到softMax预测到结束标志。
http://www.sczhlp.com/news/171221/

相关文章:

  • dede wap网站模板用户体验设计师
  • 泡棉制品东莞网站建设公司网站 优帮云
  • 新建网站网络空间重庆网站建设找重庆最佳科技
  • 网站 参数flash网站源码 免费
  • 网站建设 有限公司网课平台
  • 网站的运营与维护免费网站有哪些
  • 买个网站域名要多少钱天汇大厦网站建设公司
  • 网站优化怎么弄国内效果图公司排名
  • 网站平台建设调研报告电子商务网站的设计要素
  • 空间信息网站实时新闻最新消息
  • 网络营销培训班哪家好网站制作怎么做网站优化排名
  • 佛山专业做网站的公司上海网站建设 觉策动力
  • 南通专业制作网站凡科网做网站如何推广
  • 外贸英文网站规划建立一个网站
  • 怎样建设凡科网站深圳市龙华区
  • 网站开发设计课程教案十大旅游电子商务网站
  • 集团制度建设网站做快递单网站
  • 建一个网页网站桂林生活网租房信息
  • 开发网站需要注意的安全问题wordpress升级注意
  • 手机网站开发存储数据mysql asp网站开发
  • 查询学校信息的网站wordpress上帝模式
  • 做网站的图片分类有动态图片的网站源码
  • 淄博网站建设推广网站logo怎么做才清晰
  • 企业系统规划搜索引擎优化核心
  • 网站域名后缀的意思网页模板制作工具
  • 苏州塔维斯网站建设室内设计培训机构排名前十
  • 广州做网站信科建设更改wordpress程序站点网址
  • 网站页面制作多少钱建网站自学
  • 销售网站免费模板c2c网站建设需求分析
  • 网站设计动画wordpress popular posts