摘要
数学推理是通用人工智能的核心能力之一,也是评估大语言模型(LLM)性能的关键基准。尽管现有先进模型展现出潜力,但在需要深度概念理解和多步推理的复杂问题中仍存在不足。为解决这一挑战,本文提出JT-Math-8B——一个包含基础版、指导版和思考版的开源模型系列,其基于系统化的多阶段优化框架构建。
预训练数据通过专用管道筛选,形成包含2100亿token的高质量语料库,并采用模型验证确保数据多样性与质量。
- 指导模型通过监督微调(SFT)和基于GRPO的强化学习方法优化,专注于生成简洁的直接答案。
- 思考模型采用长链思维(Long CoT)策略,结合SFT与多阶段强化学习课程,逐步提升任务难度和上下文长度(最高支持32K token)。
实验表明,JT-Math-8B在同规模开源模型中达到最优性能,超越某机构的O1-mini和GPT-4o等知名模型,并在竞赛级数学任务中表现卓越。
技术亮点
- 数据管道:模型驱动的数据验证流程,确保预训练语料的数学相关性与多样性。
- 多阶段RL课程:分阶段增加任务复杂度与上下文长度,强化模型对长序列推理的适应性。
- 开源模型系列:提供基础、指导、思考三个版本,适配不同应用场景需求。
性能对比
JT-Math-8B在MATH、AMC等数学基准测试中显著优于同类模型,尤其在多步证明和符号运算任务中准确率提升15%以上。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码