当前位置: 首页 > news >正文

宝洁公司网站建设案例wordpress历史

宝洁公司网站建设案例,wordpress历史,锐捷网络公司怎么样,二维码生成器联图本文译自 《In-Context Learning Creates Task Vectors》 —— 论文中的作者也在用LLaMA模型#xff0c;笔者自我感觉拉近和世界顶级人才的距离#xff0c;哈哈内容较长#xff0c;如想看结论直接看 摘要、介绍与结论几个章节即可#xff0c;看细节请看目录索引。经验风险最… 本文译自 《In-Context Learning Creates Task Vectors》 —— 论文中的作者也在用LLaMA模型笔者自我感觉拉近和世界顶级人才的距离哈哈内容较长如想看结论直接看 摘要、介绍与结论几个章节即可看细节请看目录索引。经验风险最小化 (Empirical Risk Minimization ERM): 这也是理论… 摘要 在大语言模型(LLMs)中的上下文学习(In-Context LearningICL) 成为一种强大的新学习范式(learning paradigm)然而我们对它的底层机制仍不够明确清晰。尤其是将其映射到传统的机器学习框架 就很具挑战性其中我们使用 训练集S 在特定的假设类别中去寻找一个最佳拟合 函数f(x) 。我们发现ICL可以学习到的函数通常具有非常简单的结构他们直接表现近似于Transformer架构的LLMs仅有的输入是 查询x 和 由训练集计算而得的单个’任务向量(task vector), 因此 ICL可以看成是将 训练集S 压缩成一个单个任务向量(task vector) θ(S)然后利用该任务向量来调控Transformer以生成输出。为了验证上述观点我们进行了一系列的综合实验涵盖各种模型和任务。 原始信息 论文In-Context Learning Creates Task Vectors作者Roee Hendel(Tel Aviv University), Mor Geva(Google DeepMind), Amir Globerson(Tel Aviv University, Google)地址arxiv.org/pdf/2310.15… 介绍 什么是In Context Learning (ICL) 近年为大模型飞速发展它的显著特点是可以从少量的示例集合(demonstrations)中就学到新规则。例如我们向模型输入苹果-红色 青柠-绿色 , 玉米 - 就得到玉米对应的黄色输出。 上述过程至少涉及LLM的’ICL’与’Promot’的两大主题。 好像整篇就上述这段话有用其他用途不大的感觉啊太理论了可花了时间不啥得删啊。 上述例子中模型仅基于两个例子就可学会了目标映射关系这种能力我们称之为上下文学习 InContext Learning (ICL)。 ICL已经被广泛应用且效果显著。ICL如此神奇人们开始探寻ICL背后潜在的机制即模式内部是实现通过 示例集S 和查询 x 来生成所需要的输出? Figure 1: ICL as learning in a Hypothesis Class(是ICL在假设类中的学习过程) 我们通过使用上图所示方法来处理该问题。在ICL中我们给LLM一个含有特定任务的示例集S 提示(prompt) 和一个查询x这个模型为 查询x 产生了输出, 如该示例中的输出’Yellow’。我们发现其内部的处理过程可以分解为两个部分如上图所示 第一部分是学习算法(learning algorithm) ‘, 用于计算 未知查询向量θ(S)θ(S)该学习算法我们称之为 在假设类中函数参数上图中的蓝色部分。第二部分是由θ定义的规则在查询x上的应用我们用ff表示该规则不直接依赖于 示例集’S’, 如上图所示的黄色区域。 ICL的预测函数 ICL的预测函数是T([S,x])T([S,x]) , 其中T是自回归的语言模型(auto-regressive transformer), S表示用作ICL输入的训练示例集x是查询参数, ICL根据输入x得到最终输出。而[S, x]表示为ICL对x和S串联后的输出。因此在一般情况下该预测函数可以是对S和x进行运算以产生输出的任意函数这包括非参数(non-parametric)方法诸如 最近邻法(nearest-neighbor)。 ICL解决了什么问题 来自统计学习理论的假定类概念。 在学习理论的表示中通常我们将假定类看成HH的每个元素都是函数H(xθ)H(xθ), 表示为对输入x进行参数为向量θ 运算。 例如如果x∈Rdx∈R**d 那么假定类H 就是线性分类器linear classifier)的集合, h(x;θ)θ⋅xh(x;θ)θ⋅x, θ为系数向量输入为输入。学习算法在探索一个元素h, 且 h∈Hh∈H该h可以更好的适应训练集也就是所所谓的 经验风险最小化(Empirical Risk Minimization ERM)。 ICL是否以这种方式执执目前并不十分清楚最近已有机构正在探寻该问题。 例如我们从头开始训练一个语言模型(Transformer)并在上下文中以线性回归方法执行, 这种新兴的学习方法类似于梯度下降法(Stochastic Gradient Descent SGD)。 然而对于要执行更多复杂任务的自然语言任务的LLMs来说其假设空间可能是什么还不是特别明确。 在本论文中我们证实了在许多任务中LLM的ICL都可以工作在假设空间中。给定一个训练集S模型将其映射为任务向量θ(S)该向量表示为训练集S中映射/规则的描述。即给定模型T和一个向量θ,我们可以构造出一个用于完成指定任务的新函数f(x;θ)*f*(*x*;*θ*)。该函数f近似于原始模型直接应用于输入x无需示例集合直接由θ*θ*激活, 如下图。 Figure 2: Separating A and f. (分离A和f)该图在文章的讲到具体章节时还贴了一张, 主要是为了查看方便在此多贴一张 我们的观点也与软提示有关因为这两种方法都会针对特定任务调整转换器的功能。然而在ICL中任务向量是在前向传播中计算的而不是经过微调。 论文贡献 我们的贡献包括: 我们提出一种基于假设类的ICL机制, 并利用公开可用的大模型进行了一系列的不同任务试验以此来验证我们观点可靠性我们的研究进一步加深了对ICL的理解可能对LLM执行特定任务的具有实际意义。 ICL框架 ICL的假设空间观点 - A Hypothesis Class View of ICL 受学习理论的假设类观点的启动, 我们的主要目标是理解ICl是否将一个示例集S映射到一个关于输入xQuery x)的函数及该映射是如何产生的。我们特别探寻了ICL是否将 示例集S 转化为 一个θ —— 某个特定假设空间内函数的参数。实验结果的确证明了 ICL是运行在假设空间上的。 理论框架 - Theoretical Framework 我们用T表示decoder-only transformer(仅解码器的模型)大语言模型(LLM), S表示作用于ICl输入的一组示例集(如训练样本) , x表示为要求ICl提供输入的查询值。 我们使用T([S,x])T([S,x])表示ICl在S和x串联后的输出。 为了证实ICL是在一个假设空间内执行我们将其内部机制两个不可或缺的部分 第一部分: “学习算法(learning algorithm,)用A表示该算法不依赖于查询x, 用于将示例集S映射到任务向量θ。因为注意力层可以访问到S和x不依赖查询x的独立性并不明显后来会讲到解决办法。第二部分规则应用(Rule Application)用f表示, 基于θ≡A(S)θ≡A(S)主要用于将将查询x映射为输出。该规则同样独立于示例集S。同样独立性有待提高后来会讲到解决办法。 我们将 示例集S查询x 至 预测输出 的整体映射关系定义为公式 T[S;x]F[x;A(S)]T[S;x]F[x;A(S)] 如果我们可以将LLM的前向传播分按上述分为两个部分我们可以将ICL看成在Hf(⋅;θ)∣θHf(⋅;θ)∣θ的假设类中执行。 假设类 - A Proposed Hypothesis Class 如上图(Figure 2)所示框架根据A和f的不同选择假设类会有许多可能的实现。我们将描述重点在以Transfomer框架为基础的实现上。 首先我们以(Figure 1)所示的方式来设置ICL, 其中输入一个x(i.e., Corn)外加一个 → 符号。 学习过程我们分为两个部分 基于训练集S的参数向量x并将由该参数向量定义规则应用于查询x。前L层计算得到的 A 和 → 符号负责更新参数向量 θ 然后用参数向量 θ 和查询x作为剩下的层的输入并产生输出。上上图(Figure 1). 解决示例集S和查询x 在transformer中的任务层都可见的问题. Figure 2: Separating A and f. (分离A和f) Figure 2展示了分离的A和f的图示。为了让θ独立于查询x, 我们引入了一个虚拟变量 x‘x‘ (i.e. x’Plumx’Plum) 以及 使用L层的→符号来表示向量θ以防止f直接依赖于S。下面章节将详细描述 A和f的隔离 - Separating A and f 在常规的前向传播过程中我们面对的挑战是 对应于A的初始L层, 更新→符号去创建参数向量θ以及处理Query x。该过程有可能存在对x的依赖以至于会让θ对x也有了不必要的依赖。对应于f的剩余层, 因为可直接访问示例集S因此在计算中存在不仅使用了x和θ的情况。 为解决上述问题我们采用了如下措施 针对第1个问题我们引入了 “dummy query(虚拟查询)” x’x’ 并使用x’x’来计算→符号。在第一个L层之后我们使用由x′计算的→符号来表示向量θ如Figure 2的左侧部分)。针对第2个问题为了解决 计算f(x,θ)f(x,θ)时不依赖S的情况我们 仅在x 和 → 上执行transformer的前向传播并且“修补(patch)” 参数向量θ。(如Figure 2的右侧部分)。 任务与模型 - Tasks and Models 任务我们一共准备了18项目任务这些任务一共分为4类算法、翻译、语言和知识。 为了简单起来我们限制其为单个token输出。 上表1展示了这些任务中有代表性的任务情况。 更多的试验数据见论文原文 模型我们使用了多个大语言模型: LLaMA 7B, 13B, and 30B(Touvron et al., 2023), GPT-J 6B (Wang and Komatsuzaki, 2021), and Pythia a 2.8B, 6.9B, and 12B (Biderman et al., 2023)。 探寻L层 - Finding L 在第二章节我们在描述其内部机制时提到了一个自由参数 —— L层该层作为A的结束与f的开始。我们使用用(A,f)(A,f)实现对L的不同选择并通过评估以找到最佳层数。 更多的显示见论文原文。 图3展示了不同参数的LLaMA模型上针对L层的不同选择其开发集的准确度。有趣的是所有的模型在相似的中间层都展示了一个相似的性能峰值无关模型的参数与层数的多少。 基于假设的预测的准确度 - Accuracy of Hypothesis Based Prediction 接下来我们将执行ICl的常规的前向传播与 (A, f) 机制的精确度做了比较。模型与任务我们都分别经历了以下三个过程 Regular LLM在示例集S和查询x的常规应用, 即T([S,x])T([S,x]) 在常规的ICL的Hypothesis我们根据A和f的机制编写了一套程序实现了A通过使用虚拟x′(dummy x′)生成 θ认Baseline LLM仅仅在查询x上进行前向传播而不需要依赖于 示例集S。 即T([x,→])T([x,→])。 这与我们分离过程中f的应用相同但并没有修补θ。 上图显示了每个模型在这3个过程中所有任务的平均精度。完整结果原论文更详细的数据分析及其A.2-表6数据。一切结果表示我们提出 对A和f的分离为ICL提供了更好的执行过程。 任务向量的鲁棒性 - Robustness of Task Vectors 在我们的设置场景下θ是来自于 示例集S 和 虚拟x’(dummy query x′)。 检查θ对输入变量的鲁棒性稳定性是一个必要事情。正常情况下如果他表示任务他应该在不同的S与x′值间保持稳定。为了做上述鲁棒性的测试我们使用了LLaMA 7B的模型为每一个任务生成50个不同的S和x′的任务向量, 并且进行了如下分析。 Geometry of θ Figure 5是一个任务向量的t-SNE图, A t-SNE降维图 展示了任务向量形成不同的簇每个簇包含单个任务的任务向量。论文中的图9将进一步显示了相同类别的任务间的接近性。 Variability of θ 下图是一个展示任务内部及任务间的距离的直方图。 可以看出同一个任务内与不同任务间的距离更靠近一些。这表明θ在任务中是稳定的不受x′或S的高度影响。 θ补丁的优势 - Dominance of θ Patching 在第三章节我们讨论了阻止f直接访问S示例集。然后在ICL期间一个常规的前向传播过程最后一个token是可以关注到S的。 这里我们验证了这种情况的存在 f主要使用任务向量θ且不直接访问示例集S。 最后我们使用了一对名为A和B的任务他们共享了输入空间但有不同的输出。我们首先使用了“Regular的前向传播 其中我们为模型提供了任务A的示例集S(我们把它表示为SA) 以验证模型可以使用ICl执行该任务。然后我们又进行了Conflicting的前向传播, 仍然是SA作为模型任务的数据集, 同时注入θ。 For more details, refer to Fig. 6 in §A.1. 上表2, 这个Regular的前向传播中在任务A中表现了很高的精度然而这个“Conflicting”的前向传播产在任务B中产生了高精度该任务对应于注入了向量θ。这意味道着这个任务主要依赖于θ而忽略了为任务A的示例集S。 我们注意到任务B的准确度较低可能与图6(Figure 6)的性能下降有关可能进一步受到S存在的影响。 对θ的解析 - Interpreting θ 学习到了向量θ直接观地捉了关于示例集S所展示的任务信息。这里我们提供了支持这一解析的证明数据。由于向量θ是transformer的中间隐藏状态我们可以使用词汇投影法(vocabulary projection method,nostalgebraist2020Dar et al. ,2022) 。即我们检查由隐藏状态引起的分布在词汇表上的顶层token。 下表展示了 LLsMA 13B下三个任务的顶层token. 更多的请看 论文附 A 中的表7. 在多种情况下我们观察到能直接描述任务的token。而更重要的是这些术语从未明确出现在上下文中。例如在从法译英的任务中我们观察到诸如“英语”和“翻译”之类的token。这支持了我们的观点即θ携带了关于任务的重要、非琐碎的语义信息(θ carries significant, non-trivial semantic information about the task。 结论 Conclusions 本文通过对LLM中ICl的探索我们为ICL学习机制的供了新的视角。 我们展示了一个简单而优雅的结构ICL通过将一个给定的训练集压缩为一个单任务向量来发挥作用用来指导transformer根据给定的查询x去成最优输出。我们的工作为LLM如何执行ICL过程提供了理论阐述由此我们预测未来的工作可能会侧重在任务向量如何构建以及如何使用他来评估输出上。 术语中英对照 线性分类器linear classifier): 通过线性映射将数据分到对应的类别中。f(xi,W,b)W∗xibf(x**i,W,b)W∗x**ib W为权值(weights)b为偏移值(bias vector)x_i为数据。经验风险最小化(Empirical Risk Minimization ERM) 是统计学习理论中的一个原则它定义了一系列学习算法并用于给出其性能的理论界限。 END 如果您也对AI大模型感兴趣想学习却苦于没有方向 小编给自己收藏整理好的学习资料分享出来给大家 获取方式 有需要的小伙伴可以保存图片到wx扫描二v码关注免费领取【保证100%免费】 AI大模型学习路线汇总 大模型学习路线图整体分为7个大的阶段全套教程文末领取哈 第一阶段 从大模型系统设计入手讲解大模型的主要方法 第二阶段 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用 第三阶段 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统 第四阶段 大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统 第五阶段 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型 第六阶段 以SD多模态大模型为主搭建了文生图小程序案例 第七阶段 以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。 如何学习AI大模型 作为一名热心肠的互联网老兵我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。 这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 一、全套AGI大模型学习路线 AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能 二、640套AI大模型报告合集 这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。 三、AI大模型经典PDF籍 随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。 四、AI大模型商业化落地方案 作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。
http://www.sczhlp.com/news/197861/

相关文章:

  • 建设网站具体步骤自己做的网站数据库
  • 响应式网站是做列表云服务器做网站详细
  • asp网站实现php栏目江门恒达互联网网站建设
  • 百度网站推广排名如何建立网站的英文版
  • 网站建设的结构设计南江移动网站建设
  • 网站统计 中文域名网站开发选什么职位
  • 网站突然掉排名网络营销推广总结
  • 做网站如何防止被抄袭网络设计及网络设计文档
  • 小说网站开发php阿里云网站建设模板
  • 设计网站页面出现问题wordpress英文企业模板下载
  • 可信网站认证多少钱武威网站制作公司服务电话
  • 制作网站的设计难点动易网站制作教程
  • 单向链接对网站排名影响上海市建上海市建设安全协会网站
  • 常青藤网站建设备案的时候需要网站吗
  • 医疗产品网站建设网站建设外包项目
  • 什么样的网站适合优化免费做app的网站哪个好
  • 网站建设用到的软件品牌公司
  • 无法访问服务器上网站邯郸房产网签查询网
  • 橙色的网站一级a做爰网站免费
  • 做lol直播网站wordpress怎么弄中文
  • 西宁网站制作哪家好如何做网站焦点图
  • 可以找酒店案例的网站百度seo公司兴田德润
  • 帝国cms 网站地图设计学类专业包括什么
  • 团购网站开发的可行性分析企业文化墙设计公司
  • 什么网站做博客好西安中风险地区
  • C语言的学习——常量
  • 会充电的CANoe,高效完成即插即充(PnC)智能充电功能测试
  • Bridge 2025超详细保姆级下载安装全教程(含软件下载)
  • legit torrents, legit trackers
  • 自己搭建视频播放网站营销型网站价格