学校网站如何建设,如何网站点击率,html制作简单企业网页,许昌网站开发哪家好作为全新的神经网络架构#xff0c;RetNet 同时实现了良好的扩展结果、并行训练、低成本部署和高效推理。这些特性将使 RetNet 有可能成为继 Transformer 之后大语言模型基础网络架构的有力继承者。实验数据也显示#xff0c;在语言建模任务上#xff1a;
RetNet 可以达到与…作为全新的神经网络架构RetNet 同时实现了良好的扩展结果、并行训练、低成本部署和高效推理。这些特性将使 RetNet 有可能成为继 Transformer 之后大语言模型基础网络架构的有力继承者。实验数据也显示在语言建模任务上
RetNet 可以达到与 Transformer 相当的困惑度perplexity推理速度达8.4倍内存占用减少70%具有良好的扩展性
并且当模型大小大于一定规模时RetNet 的表现会优于 Transformer。具体详情一起来看。解决“不可能三角”Transformer 在大语言模型中的重要性毋庸置疑。无论是 OpenAI 的 GPT 系列还是谷歌的 PaLM、Meta 的 LLaMA都是基于 Transformer 打造。但 Transformer 也并非完美无缺其并行处理机制是以低效推理为代价的每个步骤的复杂度为 O(N)Transformer 是内存密集型模型序列越长占用的内存越多。在此之前大家也不是没想过继续改进 Transformer。但主要的几种研究方向都有些顾此失彼线性 Attention 可以降低推理成本但性能较差循环神经网络则无法进行并行训练。也就是说这些神经网络架构面前摆着一个“不可能三角”三个角代表的分别是并行训练、低成本推理和良好的扩展性能。 RetNet 的研究人员想做的就是化不可能为可能。具体而言RetNet 在 Transformer 的基础上使用多尺度保持Retention机制替代了标准的自注意力机制。与标准自注意力机制相比保持机制有几大特点引入位置相关的指数衰减项取代 softmax简化了计算同时使前步的信息以衰减的形式保留下来。引入复数空间表达位置信息取代绝对或相对位置编码容易转换为递归形式。另外保持机制使用多尺度的衰减率增加了模型的表达能力并利用 GroupNorm 的缩放不变性来提高 Retention 层的数值精度。nbsp; RetNet 的双重表示每个 RetNet 块包含两个模块多尺度保持MSR模块和前馈网络FFN模块。保持机制支持以三种形式表示序列
并行递归分块递归即并行表示和递归表示的混合形式将输入序列划分为块在块内按照并行表示进行计算在块间遵循递归表示。
其中并行表示使 RetNet 可以像 Transformer 一样高效地利用 GPU 进行并行训练。递归表示实现了O(1)的推理复杂度降低了内存占用和延迟。分块递归则可以更高效地处理长序列。这样一来RetNet 就使得“不可能三角”成为可能。以下为 RetNet 与其他基础架构的对比结果 在语言建模任务上的实验结果进一步证明了 RetNet 的有效性。结果显示RetNet 可以达到与 Transformer 相似的困惑度PPL评价语言模型好坏的指标越小越好。同时在模型参数为70亿、输入序列长度为8k的情况下RetNet 的推理速度能达到 Transformer 的8.4倍内存占用减少70%。在训练过程中RetNet 在内存节省和加速效果方面也比标准 TransformerFlashAttention 表现更好分别达到25-50%和7倍。值得一提的是RetNet 的推理成本与序列长度无关推理延迟对批量大小不敏感允许高吞吐量。 nbsp;另外当模型参数规模大于20亿时RetNet 的表现会优于 Transformer。