当前位置: 首页 > news >正文

总工会网站建设方案广州网站建设教程

总工会网站建设方案,广州网站建设教程,网站建设材料汇报,温州建网站哪家强Transformer和BERT的区别比较表#xff1a; 两者的位置编码#xff1a; 为什么要对位置进行编码#xff1f; Attention提取特征的时候#xff0c;可以获取全局每个词对之间的关系#xff0c;但是并没有显式保留时序信息#xff0c;或者说位置信息。就算打乱序列中token…Transformer和BERT的区别比较表 两者的位置编码 为什么要对位置进行编码 Attention提取特征的时候可以获取全局每个词对之间的关系但是并没有显式保留时序信息或者说位置信息。就算打乱序列中token的顺序最后所得到的Attention结果也不会变这会丢失语言中的时序信息因此需要额外对位置进行编码以引入时序信息。 Position Embedding in Transformer 在Transformer中位置编码是由sin /cos sin/cossin/cos函数生成的固定值。 具体做法用不同频率的正余弦函数对位置信息进行编码位置编码向量的维度与文本编码向量的维度相同即dmodeld_{model}dmodel。因此二者可以直接相加作为token最终的编码向量。 pos表示位置i 表示所在维度。 即使测试集中某些样本超出了最大文本长度这种编码方式仍然可以获得有效的相对位置表示。 Position Embedding in BERT 在BERT中与一般的词嵌入编码类似位置编码也是随机生成且可训练的维度为[seq_length, width]其中seq_length代表序列长度width代表每一个token对应的向量长度。 从实现上可以看到BERT中将位置编码创建为一个tensorflow变量并将其broadcast到与词嵌入编码同维度后相加。 with tf.control_dependencies([assert_op]):full_position_embeddings tf.get_variable(nameposition_embedding_name,shape[max_position_embeddings, width],initializercreate_initializer(initializer_range))# 这里position embedding是可学习的参数[max_position_embeddings, width]# 但是通常实际输入序列没有达到max_position_embeddings# 所以为了提高训练速度使用tf.slice取出句子长度的embeddingposition_embeddings tf.slice(full_position_embeddings, [0, 0],[seq_length, -1])num_dims len(output.shape.as_list())# word embedding之后的tensor是[batch_size, seq_length, width]# 因为位置编码是与输入内容无关它的shape总是[seq_length, width]# 我们无法把位置Embedding加到word embedding上# 因此我们需要扩展位置编码为[1, seq_length, width]# 然后就能通过broadcasting加上去了。position_broadcast_shape []for _ in range(num_dims - 2):position_broadcast_shape.append(1)position_broadcast_shape.extend([seq_length, width])position_embeddings tf.reshape(position_embeddings,position_broadcast_shape)output position_embeddings两者之间的区别 Transformer的位置编码是一个固定值因此只能标记位置但是不能标记这个位置有什么用。 BERT的位置编码是可学习的Embedding因此不仅可以标记位置还可以学习到这个位置有什么用。 BERT选择这么做的原因可能是相比于TransformerBERT训练所用的数据量充足完全可以让模型自己学习。 如何延拓BERT的位置编码 我们知道BERT模型最多只能处理512个token的文本其原因在于BERT使用了随机初始化训练出来的绝对位置编码最大位置设为为512若是文本长于512便无位置编码可用。 另一方面 复杂度使得长序列的显存用量极大一般显卡就连finetune也做不到。 苏神提出了一种层次分解的方法将BERT的位置编码最多可以延拓至26万。 具体内容可自行阅读苏神博客 层次分解位置编码让BERT可以处理超长文本
http://www.sczhlp.com/news/203063/

相关文章:

  • 在线代理浏览国外网站建设厅网站查询电工证件
  • 网站目录怎么做电子商务网站建设与管理目录
  • vs2010网站制作教程wordpress4.0.6 漏洞
  • 山东住房和城乡建设部网站首页seo网站图片优化
  • 中国银行建设网站首页网站建设维护面试题
  • 做网站后台用什么语言潍坊网站建设熊掌号
  • wordpress站点统计小工具wordpress目录分页怎么弄
  • 2025年口碑好的垃圾袋/医疗垃圾袋排名推荐生产厂家-厦门市万塑环保材料有限公司
  • 2025年靠谱的风机/离心风机/轴流风机生产企业排行榜-江苏中南鼓风机有限公司
  • 微网站怎么搭建互助平台网站建设费用
  • 格力网站建设需求分析如何写wordpress主题
  • ps网站如何做烫金的文字线上运营的5个步骤
  • 酒店网站模板下载中国石油天然气第六建设公司网站
  • 佛山网站建设设计公司哪家好小程序开发用什么软件
  • 网站开发的主题wordpress如何修改视频上传大小
  • 专业的集团网站建设哪家校友网站建设
  • 西安网站建设sxyun启动wordpress mu
  • 腾讯做网站可以做网站的公司有哪些
  • 京东商城官方网站营销方案ppt
  • 社团网站模板北京软件开发外包
  • 会计证继续教育在哪个网站做网站是否有备案
  • 这2个代码 找做网站的 安装一下wordpress 文章 字体
  • 做网站的专业术语南宁模板建站哪家好
  • 韩国服装网站建设肇庆网站优化建设
  • 在什么网站上做外贸自媒体网站模板
  • 网站欣赏建设网站如何挂到网上
  • 网站建设中的定位设想哪里有做网站app的
  • 做数据分析的网站英文网站怎么设计
  • 做网站友情链接的步骤门户网站 用什么语言
  • 怎么做好一个网站贵阳网站建设需要多少钱