大模型刷榜单是指一些大模型研发公司或机构,为了展示其模型的性能优越性,通过不正当手段在各种大模型评测基准测试中获取高分的行为。具体方式和相关情况如下:
- 刷榜的常见方法:
- 直接使用测试数据训练:一些模型研发者可能会获取到评测榜单的题库,将这些题目及答案加入到模型的训练集中进行微调。例如,在 C-Eval 榜单中,就出现过有模型被质疑将网上找到的原题加入训练集来提高分数的情况。
- 间接利用相关数据训练:知道评测的大致类型后,花精力收集或请专业人员编造类似题目及答案,用这些数据训练模型。业内常用的手段是让 GPT-4 等模型 “造答案”,然后将其作为训练数据,以提升模型在特定榜单评测中的表现。
- 刷榜现象产生的原因:
- 吸引关注与宣传:大模型领域竞争激烈,许多模型尚未在用户中形成良好口碑。而榜单排名是直观体现大模型能力的方式之一,高分可以帮助企业快速吸引眼球,便于在市场宣传中突出自身优势,宣称 “登顶”“夺冠” 等,从而提升品牌知名度和市场竞争力。
- 利益相关:对于一些初创公司或研发团队来说,较高的榜单排名可能有助于吸引投资,获得更多资金支持。因为投资者在判断一家 AI 公司实力时,可能会简单地认为跑分高的公司更具潜力,所以跑分成绩可能与融资等利益挂钩。
- 刷榜带来的问题:
- 榜单失去公正性:刷榜行为破坏了评测的公平性,使得榜单不能真实反映各个大模型的实际能力,导致用户难以依据榜单来判断模型的优劣,也会让真正优秀的模型被埋没,影响行业的健康发展。
- 误导研发方向:如果刷榜行为得不到有效遏制,可能会促使更多企业将精力放在研究如何刷榜上,而不是专注于提升模型的真实性能和实际应用能力,从而误导整个行业的研发方向,不利于大模型技术的长远进步。
- 相关案例:科大讯飞发布星火认知大模型后,曾在 SuperCLUE 榜单中位列国产第一,随后 360 智脑大模型、百度、百川智能、商汤、vivo 等的模型也先后在该榜单中 “登顶”。当时 SuperCLUE 只用了几百道题进行测试,且有好事者发现,科大讯飞 “夺冠” 时,SuperCLUE 官网显示的顾问成员中,有哈工大讯飞联合实验室资深级研究员,发榜第二天该专家信息被删除,引发了刷榜质疑。