大模型榜单,能不能信?

大模型榜单,能不能信?

榜单分数高,却看不出谁更好用。

文 | AIX财经 雷晶

编辑 | 金玙璠

大模型行业有一条潜规则:发布会可以迟到,但榜单战报绝不能缺席。一张漂亮的成绩单,已经成了新模型的标配。但这张成绩单,到底有多少含金量?

去年4月,Meta发布Llama 4 Maverick模型,在LMArena(原Chatbot Arena)盲测榜单上以1417分的ELO冲到第二名,仅次于Gemini 2.5 Pro。但很快,学术圈一篇题为The Leaderboard Illusion的论文揭开了内幕:Meta在发布前私下测试了至少27个模型变体,只公布了表现最好的那个。真正交到开发者手里的开源版本,排名从第2跌到了第32。更讽刺的是,Meta提交的“Llama-4-Maverick-03-26-Experimental”本身就是一个为对话风格专门优化的实验版本,回答冗长、堆砌表情符号,当LMArena开启“风格控制”过滤后,它直接从第2名跌到了第5名。

这并非孤例。类似的“登顶”“屠榜”消息,几乎每隔几周就刷一轮。今年5月,阿里通义千问Qwen 3.7-Max冲上全球编程盲测榜单Code Arena第二,在国产模型中排名最靠前;6月,阶跃星辰Step 3.7 Flash模型登上Artificial Analysis榜单输出速度第一,达到409 tokens/s,其他速度相关指标也排在前列。模型发布必配榜单战报,已经是固定动作。

榜单本应是用户挑选模型最直接的参考,但问题是,榜单排名的可信度正在受到质疑。

一个模型的推出,往往伴随着“榜单前几”“能力接近海外头部模型水平”这类话术来背书,用户的实际感受却是:各家模型的分数越来越高,“谁更好用”这个问题反而越来越模糊。

模型榜单还有参考价值吗?一个模型好不好用,到底该怎么判断?

01.一张榜单是如何诞生的?

我们先来看看模型的排名是怎么来的。

排名来自“考试”。业内把评估模型性能的测试称为基准测试(Benchmark),这是一套标准化的考题,由学术机构、厂商甚至个人设计,用固定的题目和评分标准来检验模型在特定任务上的表现。模型做完测试、拿到分数,再按分数高低排出位次,就是广义上的榜单。

目前的基准测试大致可分为两种:

一种是离线测试,有一套固定题库,模型作答,系统按标准答案打分。MMLU、GPQA、HumanEval等,走的都是这条路线。这种方式最大的优势是可量化、可横向比较。但题库会公开,这也意味着厂商可以提前“背题”。

另一种是在线测试,通常被称为Arena(竞技场)。没有固定题目,也没有标准答案。用户提交一个问题,系统将它同时发给两个匿名模型,用户对比回答后投票选出更好的那个,平台再将投票结果转化为动态排名。

LMArena就是这个赛道上的主流玩家,由加州大学伯克利分校等机构发起的LMSYS组织创建,多个厂商直接引用其排名作为模型能力的背书。它最大的优势是贴近真实使用感受,但局限也很明显:用户评判带有主观偏好,曾有研究显示,用户会倾向于选择篇幅更长、“看上去更专业”的回答。

某美企AI出海负责人曾小健提到,在中文语境中,榜单和基准测试经常被混为一谈,很多业内人士也不刻意区分。日常交流中这样说问题不大,但严格来说,两者是有差异的:基准测试指的是一套评测任务,回答的是“怎么测”的问题;而榜单是基于测试结果生成的排名,解决的是“怎么排”的问题,且有些榜单还会实时或近实时更新,并引入用户投票、模型对战等机制。

简单总结,离线测试像高考,有标准答案;在线测试像选秀,靠观众投票。在本文中我们不严格区分这两个概念,但理解“固定考试”和“实时擂台”这两种机制的差异,有助于看懂排名的意义。

搞清楚怎么考,还得知道谁是出题方。当前的离线基准测试按来源大致分为三类:

一类是学术型,题库由高校或研究机构设计,如MMLU、GSM8K等,专业性更强,但更新较慢,部分已趋于饱和。

第二类是厂商型,题库由模型公司自行发布,如OpenAI的HumanEval(代码能力测试),更贴近实际应用场景,但出题方本身也是参赛者,客观性存疑。

第三类是第三方独立型,由独立机构出题运营,也由它们通过整合多个维度的评测数据、按权重生成综合评分,如SuperCLUE、LiveBench等。这类测试立场相对中立,但权重设置、评分规则仍由平台自行把控,透明度有限。

知道了怎么考、谁出问题了,还要知道这些榜单考察的是什么能力。

离线答题侧重学科知识与基础推理,竞技场盲测侧重对话体验与人类偏好。为了方便理解,我们将主流榜单按类型和考察能力做了梳理。

可以看出,想知道模型编码能力强不强可以看LiveCodeBench、SWE-bench verifed等;想了解推理能力强不强可以看HLE、MMMU等;想看看智能体能力则可以看看GAIA、TerminalBench 2.0等榜单。这些也是目前国内大模型厂商发布模型时最常引用的榜单。

也就是说,选模型的时候,可以先根据自己关心的能力“对号入座”。

02.模型榜单也会失真

大模型榜单,本是用户挑选模型最直接的参考,但越来越多人发现,高分选手用起来不一定如预期。

第一个问题是分数通胀。随着模型能力快速迭代,主流基准测试的“试卷”难度已跟不上模型进化速度,在部分测试中,头部模型的成绩集体趋近满分,这样就很难看出真实差距。

北京理工大学博士生李岩举例,典型的数学应用问题基准GSM8K,两三年前还是衡量模型推理能力的重要标准,现在几乎所有主流模型都能拿到高分,它也就失去了筛选的作用。另一个典型是MMLU,顶级模型的准确率早已突破90%,趋于饱和。

第二个问题是刷榜成行业潜规则。目前主流榜单如MMLU、C-Eval等,测试题目与标准答案大多公开,厂商可以获取到公开的考卷并进行针对性训练。

李岩提到,行业内的刷榜主要分两种:一是用原题或高相似度的改编题训练,要么对标测试原题,要么简单修改数据参数,模型相当于“背题考试”;二是考点拆解专项训练,不使用原题,而是拆解试题核心知识点,合成同类数据训练,类似“刷模拟卷”。

第三个问题是考题与真实使用场景脱节。当前榜单多为标准化试题,侧重知识记忆与标准答案匹配,但用户的真实需求远比考题复杂。大模型从业者陈楚提到,模型训练时都会以榜单高分为目标,但高分不意味着会做事。在实际业务中,问题不一定有唯一的标准答案,场景也更多元,一个模型是否好用很难单一通过“考试成绩”评判。

曾小健打了个比方,榜单相当于温度计,刷榜相当于在温度计旁边摆了一个火炉,测的实际是火炉的温度,但用户感受到的是整个房间的体感温度,显然不会那么高。榜单测的是一个点,用户感受的是整个场景,自然差异落差。

这三个问题叠加在一起,就解释了为什么榜单上的“优等生”,到了真实环境里可能“水土不服”。

再加上,榜单的公信力也曾有过争议。国内第三方评测机构SuperCLUE在2023年5月发布的评测榜单中,将科大讯飞的星火大模型排在第四位,仅次于Anthropic和OpenAI的两个版本的模型。后被网友发现,它的官网显示的顾问排名第一位的是哈工大讯飞联合实验室的研究员,榜单成绩客观性存疑。

所以看榜之前,需要会判断一张榜单是否可信。重点来看两个方面:一是出身,测试套件是否公开透明、是否由模型厂商或盈利机构自行把控。曾小健提到,市面上存在不少“野榜”,有些评测机构本身带有商业化属性,靠出榜单、写软文变现,评测方法不透明,样本和流程也不公开,声称某些模型表现更好,却拿不出令人信服的依据。

二是题库的新鲜度,如果主流模型分数普遍趋近满分,说明这份试卷已经饱和,区分度有限。李岩认为,随着旧数据集逐渐失效,学术界也在不断推出更高难度的测评集,榜单自身的迭代同样在倒逼模型突破能力瓶颈。

03.什么才是好用的模型?

随着大模型走向商业落地,榜单排名牵动的利益链条只会更长,围绕榜单的争议也不会停止,那就不仅要会“看”榜单,还要能理解榜单呈现的信息。

当前主流基准测试已细分出数学推理、代码生成、知识问答、长文本理解等多个维度,一个在代码榜单上领先的模型,未必擅长写营销文案;一个知识问答表现优异的模型,处理长文档可能力不从心。

这里我们也根据主流榜单官网展示的数据,梳理了一些模型排名情况。需要提醒的是,榜单上的数据更新有延迟,且随时可能有变,目前截取的是截至发稿的情况,供大家参考。

可以看出,Google的Gemini系列是目前覆盖面最广的“全能型选手”;OpenAI和Anthropic各有优势,OpenAI的模型推理能力更强、而Anthropic则更擅长任务语言理解。

国内厂商则在特定赛道上占有一定优势。其中,DeepSeek的V3.2 Speciale和智谱的GLM-4.7均跻身LiveCodeBench编码能力榜前五;MiniMax的M3模型进入了GPQA Diamond推理榜;而在视频和图像生成领域,字节跳动的 Seedance 2.0、阿里巴巴的HappyHorse1.0、快手的Kling 3.0等国产模型已经成为主力玩家。

更明显的一个趋势是,没有一个模型能够赢下所有榜单。如果关注各家厂商的技术报告或发布会,会发现一个规律:模型在哪个方向有突破,就重点展示对应的榜单成绩,有些厂商还会在一个综合榜单上单独拎出自己领先的几个子项,用局部优势来佐证整体实力。

这也提醒我们,不要只看单一榜单的名次,尤其当两款模型分数区间相近时,排名先后几乎没有实际参考价值。与此同时,场景不同,对“好模型”的定义也完全不同,所以要先明确自己的需求,再去找对应领域的榜单,而不是盯着一张综合排行看总分。

所以,看榜单的核心原则就是:多个来源、多个维度、动态观察。选几个不同出处、不同题库的榜单交叉验证,如果结论一致,才更可信。

除了看榜单,该如何怎么判断一个模型好不好用?

陈楚认为,评估一个模型不能只看准确性,还要看它面对意外输入会不会犯错、在陌生任务上表现是否稳定、推理速度和资源消耗是否可接受。

他的做法是先看榜单进行初筛,再根据自己的使用需求定制相应的基准测试,把新旧模型放在真实环境里并行跑一段时间,看实际效果差异。

对于普通用户来说,不需要这么复杂,但逻辑是类似的。李岩建议,可以挑几个自己日常工作中反复出现的任务,如做PPT、写周报、整理资料等,分别让不同模型跑一遍,并把结果做横向对比。此外,关注各种科技媒体的测评也是一个低成本的参考方式。

曾小健则认为普通用户不需要过度研究榜单,按照个人习惯和实际体验使用即可。但对专业从业者,他反复强调真实测试的重要性,在他看来,榜单只能提供有限参考,更多判断要靠实际业务场景中的测试来验证。

模型能不能干好活,还得上手试。先缩小候选范围,再把模型放到自己的业务场景中跑任务,看它表现如何,这是当前业内的一种共识。

*应受访者要求,文中李岩、陈楚为化名。

来源:AIX财经 查看原文

广告等商务合作,请点击这里

本文为转载内容,授权事宜请联系原著作权人。

打开界面新闻APP,查看原文
界面新闻
打开界面新闻,查看更多专业报道

热门评论

打开APP,查看全部评论,抢神评席位

热门推荐

    下载界面APP 订阅更多品牌栏目
      界面新闻
      界面新闻
      只服务于独立思考的人群
      打开