当前位置: 首页 > news >正文

大模型刷榜单

大模型刷榜单是指一些大模型研发公司或机构,为了展示其模型的性能优越性,通过不正当手段在各种大模型评测基准测试中获取高分的行为。具体方式和相关情况如下:

  • 刷榜的常见方法:
    • 直接使用测试数据训练:一些模型研发者可能会获取到评测榜单的题库,将这些题目及答案加入到模型的训练集中进行微调。例如,在 C-Eval 榜单中,就出现过有模型被质疑将网上找到的原题加入训练集来提高分数的情况。
    • 间接利用相关数据训练:知道评测的大致类型后,花精力收集或请专业人员编造类似题目及答案,用这些数据训练模型。业内常用的手段是让 GPT-4 等模型 “造答案”,然后将其作为训练数据,以提升模型在特定榜单评测中的表现。
  • 刷榜现象产生的原因
    • 吸引关注与宣传:大模型领域竞争激烈,许多模型尚未在用户中形成良好口碑。而榜单排名是直观体现大模型能力的方式之一,高分可以帮助企业快速吸引眼球,便于在市场宣传中突出自身优势,宣称 “登顶”“夺冠” 等,从而提升品牌知名度和市场竞争力。
    • 利益相关:对于一些初创公司或研发团队来说,较高的榜单排名可能有助于吸引投资,获得更多资金支持。因为投资者在判断一家 AI 公司实力时,可能会简单地认为跑分高的公司更具潜力,所以跑分成绩可能与融资等利益挂钩。
  • 刷榜带来的问题:
    • 榜单失去公正性:刷榜行为破坏了评测的公平性,使得榜单不能真实反映各个大模型的实际能力,导致用户难以依据榜单来判断模型的优劣,也会让真正优秀的模型被埋没,影响行业的健康发展。
    • 误导研发方向:如果刷榜行为得不到有效遏制,可能会促使更多企业将精力放在研究如何刷榜上,而不是专注于提升模型的真实性能和实际应用能力,从而误导整个行业的研发方向,不利于大模型技术的长远进步。
  • 相关案例:科大讯飞发布星火认知大模型后,曾在 SuperCLUE 榜单中位列国产第一,随后 360 智脑大模型、百度、百川智能、商汤、vivo 等的模型也先后在该榜单中 “登顶”。当时 SuperCLUE 只用了几百道题进行测试,且有好事者发现,科大讯飞 “夺冠” 时,SuperCLUE 官网显示的顾问成员中,有哈工大讯飞联合实验室资深级研究员,发榜第二天该专家信息被删除,引发了刷榜质疑。
http://www.sczhlp.com/news/34151/

相关文章:

  • 给mysql root用户远程访问权限
  • 政务网站开发协议站长工具seo综合查询源码
  • 哪些网站做的比较好看的图片推广方案策划
  • 纯文字网站设计拉新平台哪个好佣金高
  • 做网站每天更新两篇文章深圳关键词快速排名
  • 中国网站建设第一品牌广告投放网站平台
  • 少儿编程加盟费用湖南专业seo公司
  • 职教集团网站建设方案网上营销方式和方法
  • 网站可以先做后再申请域名吗青岛网站排名推广
  • 个人工商户做网站备案网络优化seo薪酬
  • 计算机专业主要学什么好就业优化落实疫情防控
  • 合肥网站建设新浪营销免费域名注册申请
  • 网站后台和移动开发网络推广是什么专业
  • 哪里去找做的好看的网站西安外包网络推广
  • 可以做t恤的网站成都网站搜索排名优化公司
  • 网站怎么更新内容惠州seo关键词排名
  • 变现流量推广app河北seo推广方案
  • 在手机怎样使用wordpress优化营商环境条例心得体会
  • 网站怎么做301定向长沙网络推广只选智投未来
  • 北京国互网网站建设公司网络营销总监岗位职责
  • Linux文件压缩与解压
  • 红绿灯的 “时间” 谁来定​
  • Linux环境变量详解
  • 扫地机器人为何不会 “撞墙”​
  • 网站设置专栏百度app免费下载安装最新版
  • 行情软件seo网站优化多少钱
  • 成都网站制作公司定制seo搜索优化排名
  • wordpress 广告联盟深圳搜索seo优化排名
  • 淘宝客没网站怎么做公司网站怎么做
  • crm管理系统的好处互联网关键词优化