当前位置：首页 > news >正文

南京网站开发价格百度推广开户需要多少钱

news 2025/11/8 9:56:43

南京网站开发价格,百度推广开户需要多少钱,网站黑链检测,逆袭做富豪官方网站然语言处理七-经典论文-attention is all you need 摘要原文译文小结 1#xff1a;引言原文译文小结 2#xff1a;背景原文译文小结 3#xff1a;模型架构原文译文小结 3.1 编码器和解码器原文译文小结 3.2 注意力原文译文小结3.2.1 缩放点积注意力原文总结 3.2.2 多头注意力… 然语言处理七-经典论文-attention is all you need 摘要原文译文小结 1引言原文译文小结 2背景原文译文小结 3模型架构原文译文小结 3.1 编码器和解码器原文译文小结 3.2 注意力原文译文小结3.2.1 缩放点积注意力原文总结 3.2.2 多头注意力原文小结 3.2.3 模型中用到的几种注意力原文总结 3.3 位置前馈网络原文小结 3.4 嵌入层和softmax原文总结 3.5 位置编码原文小结补充 4 什么用自注意力原文小结 5 训练5.1训练数据和批处理原文小结补充 5.2 硬件配置和训练时长译文 5.3 优化器译文 5.4 规范化译文小结补充 6 训练结果6.1 机器翻译译文 6.2 不同的参数模型译文 6.3 英语成分分析结论译文参考资料 alttention is all you need 是提出经典模型transformer的论文作为基础模型transformer重要性不言而喻本文引字英文论文并提炼和总结要点。论文原文: attentin is all you need 本文按照论文源结构分部分来讲述该论文摘要原文译文之前流行的转录模型主要是基于具有一个编码器encoder和一个解码器decoder的神经网络这些神经网络一般是基于复杂的循环神经网络和卷积神经网络encoder和decoder之间通过注意力机制来关联起来。我们本次提出了一个简单的模型transformer模型它只需要基于注意力机制。这个模型在两个机器翻译上的表现比之前的模型都好的多特别是在并行化以及训练时间方面。我们的模型在WMT 2014 英译德的任务上获得了28.4的BlEU得分比以往的所有成果还搞上2.0个BLUE得分。在WMT 2014 英译法的翻译任务上我们的单模型的训练只使用了8 个GPU 训练了3.5天。同时这个模型可以很好的泛化到其他英语类任务上。小结开头就介绍自己的模型的显著特征模型解决的问题以及模型的厉害之处 1引言原文译文这篇论文之前呢序列模型和转录问题的解决主要依靠RNN、LSTM和GRU模型此后在这上面做了很多努力不断的突破序列模型和编码器-解码器的能力。这些递归模型通常沿着输入和输出的位置对计算进行计算。位置与对应于计算中的时间步它们会生成一系列隐藏状态htht的是由前面的隐藏状态ht−1和位置t输入生成的。这种序列性质从根本上就限制了训练过程中的并行化并且限制了在处理长序列的输入时又收到了内存的限制。最近也有很多工作通过一些技巧显著的提高了计算效率和模型的性能。但是顺序计算的这个限制没有从根本上解决。注意力机制作为序列建模和转换模型的一个组成部分已经成了比较认可的一部分它使得模型能够处理出入或者输出中的长依赖。然而大部分情况下这种注意力机制还是与循环网络结合使用。我们本次提出了Transformer模型这是一种避免循环网络的模型架构完全依赖注意力机制并且可以处理整个输入和输出的全局依赖。 Transformer更加并行化在8台P100 GPU上接受了12个小时的培训后翻译的质量已经可以达到不错的水平。小结提出一直以来模型的存在问题序列化不能并行memory过短等问题说明了自己的transfomer模型能够解决该问题更高的并行性且效果很不错。 2背景原文译文基于GPU的计算也是以减少顺序计算为目标。ByteNet和ConvS2S它们都使用卷积神经网络作为基本构建块并行计算所有输入和输出位置的隐藏表示。在这些模型中将任意输入或输出位置的信息关联起来所需要的操作对于ConvS2S来说是线性的对于ByteNet来说是对数的。这使得学习远距离位置之间的依赖关系更加困难。在transformer中这是一个常数级的操作作代价是使用了平均注意力加权位置我们用多头注意力来抵消这种影响如第3.2节所述。自注意有时也称为内部注意是一种将序列中不同位置联系起来的注意机制。自注意力机制已经成功地用于各种任务比如文本摘要等任务。端到端记忆网络基于递归注意力机制而不是序列对齐的递归机制。它已经被证明了在一些语言问答类和语言模型类的任务方面表现很好。据我们所知Transformer是第一个完全依靠自关注来计算其输入和输出的关系而不使用序列对齐的RNN或CNN。在下面的部分中我们将详细描述transformer和自注意力机制的应用并讨论其相对于其他几个模型的优势。小结简单描述了transformer模型的完全使用自注意力实现机制来解决之前模型遇到的问题 3模型架构这部分是重点原文译文大多数转录模型都具有编码器-解码器结构。这里编码器输入序列x1…xn连续输出序列 zz1…zn。对于每一个给定的z解码器一次输出一个元素的符号序列y1…ym。在每一步模型都是自回归的在生成下一个符号时将上一个时间步的生成作为下一个时间步的输入。下面是模型的架构图 Transformer的整体架构编码器和解码器使用多个堆叠的层包括自注意力、基于位置的全连接层等如图1的左半部分和右半部分所示。小结给出了一个很清晰的架构图transformer也是编码器和解码器架构堆叠了多层解码器和编码器有连接部分 3.1 编码器和解码器原文译文编码器编码器由N6个相同块组成。每块有两个子层第一子层是多头自注意层第二层是简单的位置全连接前馈网络。每个子层都有残差连接又加上层归一化。也就是说每个子层的输出是LayerNormxSublayerx其中Sublayerx是子层输出。为了简化残差链接的操作整个模型的层包括embeding层全部都用了相同的维度 dmodel为512 解码器解码器也是由N6个相同块堆叠组成。除了跟编码器相同的两个子层解码器还有第三个子层用于执行对编码器的多头注意力。与编码器类似我们使用残差连接围绕每个子层然后进行层归一化。我们还修改了自注意力子层以防止解码器关注后续位置。这种屏蔽确保了对位置i的预测可以仅取决于在小于i的位置处的已知输出。小结总体介绍了编码器和解码器的构造 3.2 注意力原文译文注意力函数可以被描述为将查询和一组键值对映射到输出其中查询、键、值和输出都是矢量。输出是值的加权和其中的每个加权值都是通过查询和键计算相似度的一个函数获得的。小结总体介绍注意力怎么实现的 3.2.1 缩放点积注意力这段是接上文介绍注意力函数原文我们用的是“缩放点积注意力”图2表示。输入的查询和键的维度都是dk以及值的维度dv。我们计算查询和键的内积然后除以的dk的平方根并取softmax函数后计算出权重然后把这些权重作用于值。在工程实践中我们是同时计算一组查询的注意力分数的这些查询被打包在一起的是Q矩阵键和值也被打包到矩阵K和V中。我们计算公式为两个最常用的注意函数是加性注意[和点积多重加性注意。点积注意力与我们的算法相同只是我们这多除了个缩放因子根号dk .加性注意力使用具有一个单隐藏层的前馈网络来计算注意力。虽然两者在理论复杂性上相似但点积注意力是在实践中速度更快、效率更高因为它可以使用高度优化的方法来实现矩阵乘法代码。对于小的dk值这两种机制的表现相似dk比较大又不做缩放处理的时候加性注意力的表现优于点积注意力。我们怀疑dk比较大的情况下点积增长的数量级会很大在做softmax的时候又会进一步缩放这种差距大的值趋近于1小的值趋近于0这种情况下梯度就会很小。同时为了抵消这种影响我们缩放了一下除了根号dk 总结介绍了两种注意力函数同时说明了论文中使用这种注意力的原因。 3.2.2 多头注意力原文我们发现不使用dmodel维度的键、值和查询来一次性的注意力函数计算不如线性层学习到的键、值和查询投影到一个到低维度dk和dv上然后执行h次效果更好。线性投射出来的多组不同的键、值和查询并行执行注意力函数生成dv维度的输出值。这些输出被连接起来并再次投影从而产生最终输出如如上面的图2Figure 2所示多头的注意力能够注意到不同位置的不同注意。单头注意力的话是做不到的。上面就是多头注意力的一个表示需要学习的参数矩阵就是这些我们实际是用了h为8也就是8个并行的头。其中dkdvdmodel/h 64由于是降维的操作所以即便是8个头也和单个头的计算代价差不多。小结说明了使用多头注意力的原因以及如何使用多头注意力 3.2.3 模型中用到的几种注意力原文 transformer用了几种不同的注意力 encoder-decoder之间层。查询是来自于decoder的上一层的输出查询和键来自于encoder的输出。这样就使得decoder中每个输出都能够关注到输入中的所有位置。这种encoder-decoder之间的注意力是模仿了经典的注意力。encoder中的自注意力层。在这个自注意力层中查询、键、值都来自于同一个位置的输入也是上一个层的输出。每一个位置的都可以关注到上一层输出的所有位置的输入。同样的在decoder中的自注意力层每隔位置的键、值和查询来自同一个输入它关注包括其自身在内所有的序列。需要注意的是decoder应该只让他关注当前输入左侧的信息在具体实现上是我们在缩放点积注意力的时候增添了mask操作赋值给待处理位置右侧的值一些特别大的负数值设置成负无穷这样在softmax的之后值就趋近于0避免它产生影响。总结介绍了架构图中的三种注意力 3.3 位置前馈网络原文除了注意力子层我们的编码器和解码器中的每个层都包含一个全连接的前馈网络输入的每个位置的网络都是相同的。这由两个线性层组成其间有ReLU激活函数。公式可以表示成下面 FFNxmax0xW1b1W2b2 不同位置上全连接是相同的不同层之间的参数不统。除了线性层也可以用两个核大小为1的两个卷积层实现。输入和输出的维度dmodel512第一个线性层维度dff2048。小结两个线性层维度变化是这样的512-2048-512 3.4 嵌入层和softmax 原文与其他序列转录模型类似我们使用学习来将输入和输出的token嵌入到维度为dmodel的向量。我们还使用的线性变换和softmax函数来将解码器输出转换为预测的下一个输出的概率。在在我们的模型中嵌入层之间和softmax之前的线性层共享相同的权重矩阵权重乘上√dmodel 下面给出表1里面给出几种不同的网络模型的对比最大路径长度、每层复杂性和最小顺序操作数。其中n是序列长度d是表示维数k是卷积核的大小r是受限自注意中邻域的大小。总结模型对比 3.5 位置编码原文由于我们的模型不包含递归和卷积为了使模型能够使用序列的顺序信息我们必须给token注入一些关于的相对或绝对位置的信息。为此我们在编码器和解码器的底部加入了位置编码他们跟embeding层具有相同的维度dmodel以便于他们可以互相加总。位置编码是可以有不同选择的。在我们的模型中我们使用正弦和余弦函数完成其中pos是位置i是维度。也就是说位置编码的每个维度对应于正余弦曲线。波长是从2π到10000·2π的几何级数。我们选择这个函数是因为它可以让模型很容易地学会相对位置**因为对于任何固定偏移kPEposk可以用PEpos的位置编码线性投影去的。**我们还尝试使用可以学习的位置嵌入并发现两个版本结果基本相同见表3第E行。我们选择了正弦曲线因为在训练期间它可以允许模型外推到比遇到的序列长度更长的序列长度。小结补充上面讲相对位置投影不太清清楚,下面的公式推导可以看出是如何解决的 4 什么用自注意力原文这个部分从不同的角度讲自注意力层与经常用到从一个变成sequence到另外一个变成sequence的RNN和CNN的对比。使用自注意力主要从三个方面考虑。一个是每一层的计算复杂度另一个是计算的并行度这个指标可以用序列中顺序操作的最小数量级来衡量。第三个在模型中相关依赖的路径长度是关键性的难点问题前向和后向信号路长度往往是影响学习相关性的关键因素。任意输入和输出序列之间的位置越短越容易学习到长序列的依赖关系。因此我们第三方面选择对比不同网络中任意输入输出序列位置的最长关联路径。如表1所示自关注层以常数级别的量可以连接所有位置而RNN需要On个顺序操作。在计算复杂度方面当序列长度n小于表示维度d注意力比RNN要快的多最常见的情况是机器翻译中使用的句子表示如单词片段和字节对表示。为了提高计算性能在很长的序中自注意可以被限制为只考虑大小为r的邻域输入序列以相应的输出位置为中心。这将增加最长路径增长到On/r的路径长度。我们会在未来的工作中进一步研究这种方法。单卷积核维度为k k n的单卷积层无法实现所有输入和输出位置信息的连接所以在卷积kernel是连续的情况下需要On/k个卷积层堆叠如果是带空洞的则需要O(logk(n)) 层。卷积层的训练成本通常比RNN层更高。分离卷积可以降低计算复杂度到O(k · n · d n · d 2)。但是即使是kn一个分离的卷积层的复杂度也相当于一个自注意力层加前馈网络层的复杂度。自注意力层可以产生了更多可解释的模型。我们在模型中检查注意力分布并且在附录中给出示例和讨论。不仅仅能够学习到不同任务的注意力甚至可以表现出与语义和语法相关的行为。小结对于表1的解释 5 训练这部分是训练方法的 5.1训练数据和批处理原文我们是在标准的WMT2014英语-德语数据集上进行训练的这个数据集包括大约450万个句子byte-pair对。句子采用字节对编码进行编码源-目标词汇表中共享大约37000个标记。对于英语-法语使用了更大的WMT2014英语-法语数据集由3600万个句子组成并将标记分割为32000词汇。句子对按近似的序列长度排列在一起。每个训练批都包含一组句子对其中包含大约25000个源标记和25000个目标标记。小结补充介绍训练数据。其中byte-pair的分割方法是byte-pair是指用词根进行切割的方法。 5.2 硬件配置和训练时长译文在一台机器上使用8 NVIDIAP100 GPU上训练了模型使用的超参数在论文中已经介绍过了每个训练步长大约需要花费0.4秒的时间基本模型总共训练了10万步或12个小时。对于大模型步长时间为1.0秒大模型训练了30万步3.5天。 5.3 优化器译文我们用了Adam的优化器参数设置为β1 0.9, β2 0.98 e是10-9在训练过程中学习率是根据下面的公式变化的对应于第一个warmup_steps训练步长学习率线性增加在后续步长中学习率随着步长的平方根成正比例下降其中warmup_steps 4000 5.4 规范化译文我们训练中用了三种规范化。 **残差 dropout:**在每个子层的输出都用了dropout这个操作是放在归一化之前。同时在编码器-解码器的嵌入过程和位置编码加总后也有Dropout机制我们用的dropout率是0.1 label 平滑在训练时我们用了lable smoothing值0.1这个对于可信度来说是有损害的虽然模型增加了一些不确定性但是提高了正确率和BLUE分数小结补充这里的lable smoothing 0.1是指softmax之后概率为0.1就认为是正确的。 6 训练结果 6.1 机器翻译译文在WMT2014英德翻译任务中Transformer (big)比之前报告的最佳模型包括集成高出2.0多个BLEU获得BLEU分数为28.4。该模型的配置列于表3的底部。在8个P100 GPU 上进行训练需要3.5天。基本模型也超过了所有之前发布的模型和集合训练成本也大幅度缩减。在WMT2014年英法翻译任务中Transformer (big)获得了BLEU分值为 41.0分优于之前发布的所有其它模型训练成本降低 1/4。在WMT2014英德翻译任务中Transformer (big)比之前报告的最佳模型包括集成高出2.0多个BLEU获得BLEU分数为28.4。该模型的配置列于表3 的底部。在8个P100 GPU 上进行训练需要3.5天。甚至基本模型也超过了所有之前发布的模型和集合训练成本也大幅度缩减。在WMT2014年英法翻译任务中Transformer (big)获得了BLEU分值为 41.0分优于之前发布的所有其它模型训练成本降低 1/4。大模型训练英法翻译任务用到的drop out率是0.1 对于基本模型我们使用最后5个检查点进行平均而获得的单个模型每隔10分钟写一次。对于大型模型我们对最后20个检查点进行了平均。我们用了beam search集束宽度是4惩罚因子α0.6这些超参数是我们在实验后选择的。推理的时候我们认为输出的最大长度是输入长度50有可能终止的话就提前终止。 6.2 不同的参数模型译文为了评估transformer中不同组件的重要性我们改变了基本模型的参数并对这些不同的模型在英语到德语的翻译任务上做了评估这些参数和评估被记录在了表3中说明下表3这是Transformer架构的各个不同版本。未列出的值与基本模型的值相同。模型所有指标都在英语到德语翻译开发集newstest2013上测试的。列出来的PPL是根据我们的词片编码计算的不应该与单个词的词的进行对比。我们用的beam search的设置在上面已经描述过了但是没有checkpoint做平均计算。最后的结果记录表3中表中A这行是改变了attention的数量可以看到单个或者过多的头结果都不如基础模型好表中B这行是降低了键的维度结果更差。这可能也是在提示我们合适的函数一个比点积更为精密的函数可能更管用。表中C和D说明了更大的模型更好一些更高点的dropout率防止过拟合方面更好些表中E我们把位置嵌入从sin函数换成了可以学习的位置嵌入结果跟基础模型差不多 6.3 英语成分分析为了评估Transformer是否可以推广到其他任务我们对英语成分分析这个任务进行了实现。这项任务提出了具体的挑战输出受制于强大的结构约束并且比输入要长很多。此外基于RNN的序列的模型在小数据的情况下还不能达到最先进的结果。我们WSJ部分这是中训练语料训练了一个4层的transformer 大约4万条训练语句。我们还在半监督环境下对其进行了训练使用较大的高置信度和BerkleyParser语料库大约有1700万条语句。在只使用WSJ的情况下1.6万的词汇在半监督的情况下3.2万的词汇。我们只进行了少量的实验在第22节开发集上dropout、attention和residual这些参数都跟第5.4节设置的一样、learning rate和beam size所有其他参数与英译德基础翻译模型保持不变。在推断过程中我们将最大输出长度增加到输入长度 300。我们对只有WSJ的和半监督的设置都使用了beam size 21和惩罚因子0.3 。表4中我们的结果显示尽管缺少具体的任务微调模型仍然表现得十分出色除了RNN外产生的结果比以前报道的所有模型都好与RNN sequence-to-sequence模型相比即使只在WSJ的4万句子训练集上进行训练Transformer也比BerkeleyParser更出色。结论译文这次的序列转录模型完全基于attention替代了编码器和解码器架构中的循环神经网络完全使用了多头的自注意力。对于翻译任务来说transformer比之前的架构模型训练都更快。在WMT2014 英语翻译德语和英语翻译法语的任务上模型的表现很好超过了之前所有的模型。我们对基于注意力的模型的未来感到兴奋并计划将其应用于其他任务。我们计划将Transformer扩展到文本以外的注意力机制比如有效地处理大量输入和输出的任务诸如图像、音频和视频处理等。在生成过程中使用更少的顺序而非并行执行是我们的另一个研究目标。 transformer模型的代码在https://github.com/tensorflow/tensor2tensor上详情可以参考这个参考资料本论文是相对简洁有个老外有详细的解说版如下英文解释资料 https://jalammar.github.io/illustrated-transformer/

查看全文

http://www.sczhlp.com/news/250076/