那些网站做的比较好,网站建设实际总结,学生网页设计模板素材,云南网站开发公司找哪家Mammoth: Building math generalist models through hybrid instruction tuning
https://arxiv.org/pdf/2309.05653
MAmmoTH#xff1a;通过混合指令调优构建数学通才模型
摘要
我们介绍了MAmmoTH#xff0c;一系列特别为通用数学问题解决而设计的开源大型语言模型#…Mammoth: Building math generalist models through hybrid instruction tuning
https://arxiv.org/pdf/2309.05653
MAmmoTH通过混合指令调优构建数学通才模型
摘要
我们介绍了MAmmoTH一系列特别为通用数学问题解决而设计的开源大型语言模型LLMs。MAmmoTH模型是在我们精心策划的指令调优数据集MathInstruct上训练的。MathInstruct是由13个数学数据集组成的其中包含中间推理过程我们新策划了其中的六个。它展示了思维链CoT和程序思维PoT推理的独特混合并且确保了在数学领域广泛的多样性覆盖。CoT和PoT的混合不仅释放了工具使用的潜力还允许对不同的数学问题采取不同的思维过程。结果MAmmoTH系列在所有规模上的九个数学推理数据集上显著优于现有的开源模型平均准确率提高了16%到32%。值得注意的是我们的MAmmoTH-7B模型在MATH一个竞赛级数据集上达到了33%超过了最好的开源7B模型WizardMath23%而MAmmoTH-34B模型在MATH上达到了44%的准确率甚至超过了GPT-4的思维链结果。我们的工作强调了在开发更优秀的数学通才模型时多样化问题覆盖和使用混合推理的重要性。
1 引言
本研究聚焦于数学推理这是现代大型语言模型LLMs的一个关键能力OpenAI, 2023; Anil等人2023。尽管该领域近期取得了进步但在闭源和开源LLMs之间存在明显差距——像GPT-4OpenAI, 2023、PaLM-2Anil等人2023和Claude 2Bai等人2022这样的闭源模型在GSM8KCobbe等人2021和MATHHendrycks等人2021b等流行的数学推理基准测试中占据主导地位而像LlamaTouvron等人2023a;b、FalconPenedo等人2023、OPTZhang等人2022这样的开源模型在所有基准测试中都远远落后。
目前弥合这一差距的努力主要有两个方向1持续预训练如GalacticaTaylor等人2022和MINERVALewkowycz等人2022这些模型继续在超过1000亿个token的与数学相关的网络数据上训练LLM。这种方法提高了模型的一般科学推理能力但计算成本高昂。2特定数据集的微调如拒绝采样微调RFTYuan等人2023和WizardMathLuo等人2023这些方法使用特定于某些数据集的监督数据对LLM进行微调。尽管这些方法提高了领域内的性能但它们无法推广到超出其微调数据的更广泛的数学推理任务。例如RFT和WizardMath都可以将GSM8KCobbe等人2021的准确率提高30%以上这是它们的微调数据集之一但却可能将MMLU-MathHendrycks等人2021a或AQuALing等人2017等领域外数据集的准确率降低高达10%。
在本文中我们旨在提出一种轻量级但具有普适性的数学指令调优方法以增强LLMs的一般即不限于微调任务数学推理能力。现有方法Luo等人2023; Yuan等人2023; Taylor等人2022主要关注通过逐步自然语言描述解决数学问题的“思维链”Chain-of-Thought, CoT方法Wei等人2022b; Nye等人2022。这种方法在涵盖大多数数学科目方面表现出其普适性但在计算精度以及复杂的数学或算法推理过程例如求解二次方程的根和计算矩阵的特征值方面存在挑战。
与此相反像“程序思维”Program-of-Thought, PoT方法Chen等人2022和PALMadaan等人2022; Gao等人2023这样的代码格式提示利用外部工具即Python解释器大大简化了数学问题解决过程。这种方法主张将计算过程卸载到外部Python解释器中以解决复杂的数学和算法推理过程例如使用sympy求解二次方程或使用numpy计算矩阵的特征值。然而PoT在处理更抽象的推理场景时存在不足如常识推理、形式逻辑和抽象代数特别是在没有内置API的情况下。
为了结合CoT和PoT方法的优势我们引入了一个新的数学混合指令调优数据集MathInstruct它具有两个主要特点1广泛覆盖不同的数学领域和复杂性级别2混合CoT和PoT的推理方式。MathInstruct基于七个现有的数学推理数据集和六个新策划的数据集见表1。我们使用MathInstruct对不同规模的LlamaTouvron等人2023a;b; Roziere等人2023模型进行微调从7B到70B不等。由此产生的MAmmoTH模型图1展示了作为数学通才的前所未有的潜力。
我们在一系列数据集上评估了MAmmoTH包括领域内IND测试集——GSM8KCobbe等人2021、MATHHendrycks等人2021b、AQuA-RATLing等人2017、NumGLUEMishra等人2022b——和领域外OOD测试集——SVAMPPatel等人2021、SATZhong等人2023、MMLU-MathHendrycks等人2021a、MathematicsDavies等人2021和SimulEqKoncel-Kedziorski等人2016。与现有方法相比我们的模型更好地泛化到OOD数据集并显著提高了开源LLMs在数学推理中的性能。值得注意的是在流行的竞赛级MATH数据集Hendrycks等人2021b上我们的7B模型可以比WizardMath开源MATH最先进技术Luo等人2023高出3.5倍35.2%对10.7%我们34B的MAmmoTH-Coder在Code LlamaRozier等人2023上微调甚至可以超过使用CoT的GPT-4的结果。
我们从两个角度突出了我们的贡献1从数据工程的角度我们展示了MathInstruct这是一个高质量的数学指令调优数据集结合了各种数学问题和混合推理方式。2从建模的角度我们通过训练和评估超过50种不同的模型和基线从7B到70B不等调查了不同数据来源和输入输出格式的影响。我们的模型包括MAmmoTH和MAmmoTH-Coder在准确性上取得了显著提升超过了现有的开源模型。 这篇论文的主题是“GPT Can Solve Mathematical Problems Without a Calculator”作者们来自清华大学和TAL AI Lab。论文的核心观点是挑战了以往对大型语言模型LLMs在执行复杂数学运算能力上的限制认知。作者们展示了通过充分的训练数据一个具有20亿参数的语言模型能够以接近100%的准确率执行多位数的算术运算而且不需要数据泄露显著超过了GPT-4其多位数乘法的准确率仅为4.3%。
论文的主要贡献包括 提出了MathGLM模型这是一个针对复杂数学运算进行了细致设计的模型与现有的领先LLMs如GPT-4相比展现出了优越的性能如图1所示。 通过分步策略构建了一个算术数据集作为MathGLM预训练的基础。该数据集覆盖了从简单的单步运算到复杂的多步运算。 采用了课程学习的概念通过逐步增加算术表达式的复杂性增强了MathGLM处理超过8位数的乘法以及包含小数和分数运算的能力。 在数学文字问题上通过细化Ape210K数据集将直接计算答案的方式改为分步计算显著提高了MathGLM在解答数学文字问题时的准确率。 在包含5000个样本的中文数学问题测试集上经过GLM-10B微调的MathGLM展现出了与GPT-4相似的性能。 论文还包括了对MathGLM在不同运算类型如加法、减法、乘法和除法上性能的详细实验和分析证明了其在处理复杂数学任务方面的有效性。 论文的代码和数据已经公开在GitHub上供有兴趣的研究者进一步探索和使用。
论文的结构还包括了相关工作的综述、方法介绍、实验设计、结果分析和结论。作者们通过这项工作揭示了LLMs在数学推理任务上的巨大潜力并挑战了关于它们在执行复杂数学运算上能力有限的传统观点。