北京网站开开发公司电话,wordpress列表页不显示图片,wordpress去category,app开发哪家公司好[大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠 目录 文章目录 [大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠目录0. 摘要1. 核心内容3. 创新点4. 算法模型5. 实验效果6. 重要数据与实验结论7. 推荐阅读指数#xff1a;8. 推荐理由 后记 论文…[大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠 目录 文章目录 [大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠目录0. 摘要1. 核心内容3. 创新点4. 算法模型5. 实验效果6. 重要数据与实验结论7. 推荐阅读指数8. 推荐理由 后记  论文信息: 
article{zhou2024larger,title{Larger and more instructable language models become less reliable},author{Zhou, Lexin and Schellaert, Wout and Mart{\\i}nez-Plumed, Fernando and Moros-Daval, Yael and Ferri, C{\e}sar and Hern{\a}ndez-Orallo, Jos{\e}},journal{Nature},pages{1--8},year{2024},publisher{Nature Publishing Group UK London}
}更大且更可指导的语言模型变得不那么可靠 
0. 摘要 
本文探讨了大型语言模型LLMs在规模扩大即增加模型大小、数据量和计算资源和定制优化包括后处理、微调或使用人类反馈后其可靠性如何受到影响。研究发现尽管这些模型在处理简单任务时与人类表现一致但在低难度区域即模型不出错或人类监督可以发现错误的区域的可靠性并未得到保障。此外早期模型倾向于回避用户问题而扩大规模和优化后的模型则更频繁地给出看似合理但错误的答案包括人类监督者经常忽视的难题错误。研究还观察到对同一问题的不同自然表述的稳定性通过扩大规模和优化干预得到了改善但难度水平上的变异性仍然存在。这些发现强调了在高风险领域需要在设计和开发通用人工智能时进行根本性的转变这些领域对错误分布的可预测性至关重要。 
1. 核心内容 
数以百万计的人们正在使用基于大型语言模型LLMs的通用人工智能AI系统这些系统已经在教育、医学、科学和行政等领域变得司空见惯。由于这些模型经常犯错误用户必须监督模型的操作并管理他们的期望以可靠地使用这些系统。 随着语言模型变得更大、更易于指导我们需要分析这种可靠性是如何发展的。自从早期的LLMs以来模型已经被扩大规模——用更多的参数、更大的数据集和更长的训练时间进行训练——并且也通过人类反馈进行了定制化塑造——使用如指令微调、人类反馈的强化学习RLHF或输出过滤调节技术。 
人们可能想当然地认为随着模型变得更强大通过使用这些策略更好地与人类对齐它们也从人类的角度变得更可靠即它们的错误遵循人类可以理解和调整查询的可预测模式。例如早期模型在执行如“20  183”这样的简单加法运算时失败。性能非常容易预测失败是常见的。因此用户很容易理解对于这项任务没有操作范围没有人使用这些模型进行加法运算。几代扩大规模和定制化的模型之后模型不仅看似掌握了这些加法运算而且还成功地执行了50位或更多数字的加法运算。由于这种能力人们可能开始将它们用作计算器例如用于将测量单位转换为不同的单位。只有在这种情况下当模型在如“3913和92相加”这样的简单提示上失败时用户驱动的可靠性就会受到严重损害。当用户认为这些数字在操作范围内时模型失败了。当用户稍微调整问题例如“3913  92 ”或者根本没有改变——因为许多模型被配置为非确定性的——用户得到正确答案时体验变得更加令人困惑。尽管这种提示敏感性已经被广泛分析但人们很少理解为什么一个过度勤勉的系统会为100位数字的加法给出错误答案而不是简单地回答“恐怕我做不到”。这种鲁莽的行为已经被开发者激励他们构建了“从不回避”的模型。 
为了理解可靠性的演变我们分析了几个LLMs家族的发展轨迹由OpenAI开发的生成预训练GPT系列由Meta开发的LLaMA系列以及由BigScience开发的BLOOM套件。GPT在过去几年中一直处于最先进的水平并且根据几项调查它在LLM生态系统中处于中心地位影响着基于变换器的架构、训练数据、评估框架和对齐技术。LLaMA是权重已经发布的家族中最好的例子BLOOM是来自科学界的更加开放的努力的结果。每个家族都代表了使LLMs更有能力和更好地对齐的真诚努力。 表1总结了这三个家族的模型细节。规模扩大增加参数数量、数据大小和计算量被认为是整体性能的关键预测因素而塑造/塑形修改训练系统提高了它们的可指导性和对齐性。 这创造了两类模型。第一类包括“原始”模型——GPT-3 ada、babbage、curie和davinci——非聊天LLaMA模型和基础非zBLOOM模型。第二类包括定制化的模型或指导或聊天模型它们结合了某种指令适应、微调或输出安全调节。为了我们的分析方便的是BLOOM和LLaMA分别有六个和三个完全配对的原始和定制化模型以区分规模扩大和塑造扩大。图1表示一些关键指标显示定制化模型蓝色对提示变化更稳定并且更正确但与人类难度的一致性较低并且有更多的总体失败更不谨慎。这些指标总结了五个精心选择的基准测试的行为这些基准测试在简单算术“加法”、词汇重组“字谜”、地理知识“地方性”、多样的科学技能“科学”和以信息为中心的转换“转换”领域。这涵盖了一系列领域和答案的开放性程度。我们确定了前两个领域“加法”和“字谜”中人类难度的良好内在代理或者通过识别需求相关特征不包括“科学”对于所有实例已经有多个人类难度评估。 
为了确定它们的质量我们进行了广泛的人类研究S1以评估哪些难度代理最符合人类期望并将代理校准为一个从0到100的标准化难度分数代表预期的“平均人类”失败百分比。表2提供了五个基准测试的概述用作人类难度的内在难度函数在方法中讨论一些示例和给定示例的校准人类难度值。我们分析中的另一个必要和创新的元素是我们考虑了回答的三个类别正确、不正确和回避分别用c、i和a表示。人类参与者中的回避行为在心理学中已经得到了广泛的探索。这种回避行为包括拖延、偏离、找借口或根本不回答。对于LLMs来说回避也被称为对冲、拒绝或回避包括偶然的发言或延续它们不是答案不符合要求的以及那些在元级别解释为什么不回答问题的回答出于认识论或道德原因。补充表11展示了五个基准测试中一些任务的回避类型。难度一致性、任务回避和提示稳定性必须从与LLMs交互的人类用户的角度来考虑。我们的第一个人类研究S1见补充说明6分析了人类对一般难度的感知是否与实际的人类表现和自信一致因为这在人类决定委托给语言模型的任务和他们的提示制定中具有重要的影响。但是输入和输出的使用环境同样重要决定了这些系统的使用是多么可靠。我们进行了第二个人类研究S2见补充说明7在这项研究中我们探索了人类参与者是否能够准确评估模型的输出从而补偿不同类型的错误。通过一个带有正确性、回避和不正确性的三值混淆矩阵我们可以关注非回避情况的频率人类认为输出是正确的但它不是图3。通过这种设置我们调查了从人类角度影响LLMs可靠性的三个核心和相互关联的元素。1. 难度一致性。错误是否更可能发生在人类认为困难的项目上规模扩大和塑造是否消除了简单项目的误差从而创造了可靠操作的区域2. 任务回避。语言模型给出看似合理但错误答案的频率是多少而不是安全地回避回答问题扩大规模、定制化的模型是否更擅长避免错误或使错误对人类可检测3. 提示稳定性。正确性和回避性如何受到提示的间接变化的影响扩大规模、定制化的模型是否对提示变化的敏感性较低跨越难度水平 我们将通过使用每个基准测试的人类难度度量见表2检查不同类型的回避补充表11并使用每个基准测试的15种自然提示变化——由人类提供的真实指令或问题——来回答问题。难度、回避和提示以及它们的演变已经从不同的角度进行了分析。在这里我们专注于从LLMs规模扩大和塑造的角度这三个元素的系统相互作用。  
结果 图2显示了GPT和LLaMA家族中选定模型在五个领域“加法”、“字谜”、“地方性”、“科学”和“转换”中随着难度增加的表现。我们看到随着我们接近最后一列正确响应的百分比增加了。这是预期的结果并且对于在扩展数据图1GPT、扩展数据图2LLaMA和补充图14BLOOM家族中显示的其余模型也是一致的。让我们关注正确性与难度的演变。对于“加法”我们使用总的进位操作数量fcry。对于“字谜”我们使用给定字谜的字母数量flet。对于“地方性”我们使用城市知名度的倒数fpop。对于“科学”我们直接使用人类难度fhum。对于“转换”我们使用输入和输出字数的组合以及Levenshtein距离fwl表2。正如我们在方法中讨论的这些被选为人类期望的好的代理根据人类研究S1见补充说明6。随着难度的增加所有模型的正确性明显下降。 为了确认这一点补充表8显示了正确性与人类难度代理之间的相关性。除了BLOOM对加法之外所有这些都是高的。然而尽管人类难度度量对正确性有很强的预测能力即使在非常低的难度水平上也没有实现完全的可靠性。尽管模型可以解决极具挑战性的实例但它们在非常简单的实例上仍然失败。这在“字谜”GPT、“科学”LLaMA和“地方性”和“转换”GPT和LLaMA中尤为明显证明了难度不一致现象的存在。这种不一致性在所有LLMs中都有观察到通过扩大规模和塑造策略没有明显的改善 这通过图1中显示的聚合度量得到了证实。特别是对于GPT-4与其前身GPT3.5-turbo相比主要在中等到高难度实例上提高了性能而对于简单任务没有明显的改善。对于LLaMA家族没有模型在最简单的难度水平上达到了60%的正确性对于“科学”不计算25%的随机猜测。 唯一的例外是“科学”的低难度区域与GPT-4几乎完美的结果直到中等难度水平。专注于模型趋势我们还看到了更多从GPT-3 ada到text-davinci-003不正确结果的百分比显著增加这是由于大大减少了回避对于GPT-4几乎消失了。 在图2中回避区域从GPT-3 ada到text-davinci-003显著减少并被越来越多的错误答案所取代。然后对于GPT-3.5-turbo回避略有增加但随着GPT-4再次减少。这种从回避到错误答案的转变在LLaMA家族中不太明显但在将第一个与最后一个模型进行比较时仍然清晰。这在图1中的谨慎指标中得到了总结表明定制化模型在回避方面的表现更差。这与预期不符即更近期的LLMs将更成功地避免回答超出其操作范围的问题。在我们对回避类型的分析中见补充说明15我们看到非一致性回避转变为定制化模型的认知回避这是一个积极的趋势。但这种模式并不一致不能补偿总体下降的回避。看看难度趋势一个重要的问题是回避是否随着更困难的实例而增加正如预期的那样。图2表明情况并非如此。只有少数相关性口袋并且相关性很弱。对于“字谜”、“地方性”和“科学”的最后三个GPT模型以及“字谜”和“科学”的一些LLaMA模型。在其他一些情况下我们看到回避最初增加但在更高的难度水平上停滞不前。回避答案的百分比很少比不正确的百分比上升得更快。阅读结果很清楚错误仍然变得更加频繁。这代表了可靠性的退化没有任何难度范围错误是不可能的要么是因为问题太简单模型永远不会失败要么是因为它们太难模型总是回避给出答案。接下来我们想知道这种可靠性的缺乏是否可能是由于某些提示特别差或脆弱以及我们是否能找到这些特定提示的安全区域。我们通过正确性、回避和不正确性来分析提示敏感性使用补充表1和2中的提示。直接分解可以在补充图1中找到表明定制化模型通常对提示变化不太敏感。但如果我们看看与难度的演变如图3所示的GPT和LLaMA家族最具代表性的模型所有模型在补充图12、13和15中显示我们观察到原始GPT和所有LLaMA模型之间的巨大差异而LLaMA家族经历了更微妙的转变。原始GPT和所有LLaMA模型对提示非常敏感即使在像“加法”这样非常明确的任务中也是如此。难度似乎并没有太大影响敏感性对于简单实例我们看到原始模型特别是GPT-3 davinci和非聊天LLaMA模型只有在仔细选择的提示下才能解锁一些能力。对于定制化模型最后六个GPT模型和最后三个LLaMA聊天模型更加稳定但在整个难度水平上存在变异性口袋。总的来说这些不同程度的提示敏感性对用户来说具有重要的意义特别是因为人类研究S2表明监督不能补偿这种不可靠性图3。看看图3中正确与错误的类型错误红色如果用户对难度的期望与模型结果一致我们应该在曲线的左区域简单实例有更少的案例这些案例应该由人类更好地验证。这将为被认为是人类容易的实例提供一个安全的操作区域模型错误率低使用模型响应的人类监督错误率低。然而不幸的是这仅适用于简单的加法和更广泛的字谜因为对于这两个数据集验证通常是直接的。我们对GPT和LLaMA的观察也适用于BLOOM家族补充说明11。为了区分规模扩大和塑造的影响我们使用LLaMA和BLOOM模型进行了消融研究它们是定制化版本分别命名为聊天和z以及原始版本每个配对都有相同的预训练数据和配置的优势。我们还包括了所有已知计算的其他模型如非指导GPT模型。我们采用图1中总结的数据扩展数据表1并使用表1中的FLOPs列进行规模分析。FLOPs信息通常捕捉了数据和参数计数如果模型尺寸合适的话。我们将原始和定制化模型的趋势分开。正确性随着规模的增加而增加在文献中系统地显示出来。有了我们的数据和三结果标签我们现在可以分析未探索的回避和不正确性的演变图4左。   
正如图4所清楚显示的回避明显低于定制化模型蓝色而不是原始模型橙色但不正确性更高。但是即使正确性随着规模的增加而增加不正确性并没有减少对于原始模型它显著增加。这令人惊讶当我们分析那些不是正确的不正确响应的百分比时在我们的符号中为i/(a  i)图4右。我们看到错误比例大幅增加模型变得更加ultracrepidarian在他们不知道时给出非回避答案因此相应地更多失败。我们现在可以考虑到所有这些观察和趋势并与普通人类用户的期望研究S1和有限的人类能力进行验证和监督研究S2。这导致了对LLMs可靠性演变的重新理解分为两组发现难度不一致F1a和F1b、任务回避F2a和F2b和提示敏感性F3a和F3bF1a - 人类难度代理作为LLM正确性的宝贵预测因子。人类难度的代理与正确性负相关意味着对于给定任务人类自己可以对实例的正确性有大致的期望。相关性当模型的自我信心不可用或显著减弱时例如RLHF破坏校准这种可预测性至关重要作为替代的成功估计器。F1b - 改进发生在困难实例上因为简单实例的问题仍然存在扩展了难度不一致。当前的LLMs明显缺乏无错误的操作区域。事实上所有家族的最新模型都没有确保任何可靠的操作区域。相关性在需要确定高可靠性操作条件的应用中这一点尤其令人关注。F2a - 规模扩大和塑造目前用更多的不正确性交换回避。回避水平取决于使用的模型版本并且在某些情况下它完全消失不正确性占据了减少回避的重要比例即ultracrepidarianism。相关性这种回避缓冲的消除无论是有意还是无意可能会导致用户最初过度信任他们不指挥的任务但可能会导致他们长期失望。F2b - 回避并不随着难度的增加而增加人类监督的拒绝也没有增加。模型错误随着难度的增加而增加但回避并没有。用户可以识别这些高难度实例但仍然经常做出不正确到正确的监督错误。相关性用户没有充分利用他们对难度的期望来补偿高难度区域中不断增加的错误率表明过度依赖。F3a - 规模扩大和塑造可能并没有让用户摆脱提示工程。我们的观察表明提示稳定性有所增加。然而模型在它们的提示敏感性方面有所不同这在难度水平上有所不同。相关性用户可能会努力找到有利于回避而不是不正确答案的提示。人类监督并没有修复这些错误。F3b - 提示性能的改进在难度水平上不是单调的。一些提示不遵循平均值的单调趋势与难度度量的一致性较差并且在困难实例上错误较少。相关性这种非单调性是有问题的因为用户可能会被对困难实例效果很好的提示所吸引但同时对于简单实例却得到了更多的不正确响应。正如图1中所看到的我们可以重新审视三个家族的总结指标。看看两个主要集群和定制化模型在错误和难度一致性方面的更差结果我们可能会急于得出所有类型的规模扩大和塑造对于确保用户驱动的可靠性在未来是不适当的结论。然而这些影响很可能是这些模型的特定愿望的结果更高的正确率通过正确获得更多实例来在基准测试中表现出色但不一定是所有简单实例和更高的可指导性通过说出有意义的东西来看起来勤奋即使错了。例如在规模扩大中有一种趋势是包括更大的训练语料库其中包含更多困难的例子或者给予权威来源更多的权重这可能包括更复杂的例子主导了更简单例子的损失。此外塑造通常惩罚对冲或看起来不确定的答案。这让我们想知道这是否可能有所不同。 
讨论 在本文中我们进行了两项人类研究。第一项研究调查了参与者对输入的感知和实际难度以确定难度期望是否与难度代理相关。第二项包括参与者监督或验证模型的输出以确定人类是否会将不正确的回答视为正确。最大化难度一致性和减少人类验证中可能的不正确到正确的错误可以引入训练和塑造这些模型时的损失函数。 为此需要共同努力构建更大的人类难度期望和输出监督数据集。有了这些数据比传统人类反馈更有资格AI本身可以被用来训练执行这种塑造的监督者前提是目标不是消除回避就像在参考文献21中一样而是找到合适的回避水平。在医学和其他关键领域专门设计的语言模型可能具有拒绝选项或与外部AI监督者配对从而通过教学AI模型何时避免回答来支持回避。这些干预措施应该使LLMs表现出更强的类人和与人类对齐的特征确保可靠性。在这样做之前鉴于LLMs在普通人群中的高渗透率我们提醒人们依赖这些系统的人类监督是一个危险特别是在真理至关重要的领域。最后我们包括了我们分析的一些限制和由此产生的未来工作。我们研究的第一个限制在于参与者大多是非专家。在解释校准的难度值时我们必须考虑到这一点这些值通常对某些基准测试来说很高因为有很多问题普通人群无法解决。然而我们的动机是捕捉相同的人类群体来估计预期的实例难度这些难度在所有数据集中都是可比的。第二个限制是我们的“自然”提示样本收集自多样性的来源但我们没有访问提示在现实场景中出现的频率。最后我们只涵盖了具有特定轨迹的样本家族排除了将任务委托给外部工具或使用复杂推理技术的LLMs这些可能会显示出不同的动态。GPT家族在性能方面一直处于前沿并且已经被使用了几年使OpenAI在开发其他语言模型方面极具影响力。事实上当分析基础模型的生态系统时OpenAI应用程序编程接口具有最多的依赖项。LLaMA和BLOOM具有更开放和系统的模型阵容不仅允许区分规模扩大和塑造而且还为使用我们的方法和代码进行它们演变的增量分析铺平了道路这是LLMs快速发展的背景。强调这些家族的可靠性问题并引入新的分析抽象和工具至关重要使其他研究人员能够探索未来的扩大规模、定制化模型的不同路径。 
3. 创新点 
难度一致性分析研究了模型错误与人类感知难度之间的关系发现模型在简单任务上的表现与人类一致但在困难任务上则不然。任务回避与稳定性分析了模型在面对不同难度级别的任务时的回避行为以及对不同表述方式的稳定性。预测分布错误提出了对错误分布的可预测性至关重要的高风险领域的AI设计和开发需要根本性转变的观点。 
4. 算法模型 
GPT系列由OpenAI开发的生成预训练GPT模型。LLaMA系列由Meta开发的模型特点是权重公开发布。BLOOM套件由BigScience开发的更开放的努力成果。 
5. 实验效果 
正确率随着模型规模的扩大和优化模型的正确率有所提高。回避与错误扩大规模和优化后的模型在减少回避行为的同时错误率有所增加。提示稳定性对不同自然表述的同一问题的稳定性有所提高但难度水平上的变异性仍然存在。 
6. 重要数据与实验结论 
难度一致性模型在简单任务上的正确率与人类预期一致但在困难任务上则不然。错误率扩大规模和优化后的模型在面对简单任务时错误率降低但在困难任务上错误率增加。提示稳定性模型对不同表述方式的稳定性有所提高但并未完全消除变异性。 
7. 推荐阅读指数 
★★★★☆ 
8. 推荐理由 
这篇文章对于理解当前大型语言模型在可靠性方面的局限性提供了深刻的见解特别是在高风险领域应用时。文章提出的关于错误分布可预测性的观点对于AI领域的研究者和实践者都具有重要的指导意义。 后记 
如果您对我的博客内容感兴趣欢迎三连击(点赞关注和评论)我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型深度学习计算机视觉相关方向)最新学术论文及工程实践方面的内容分享助力您更快更准更系统地了解 AI前沿技术。