你真的看懂 AI 排行榜了吗?聊聊 LLM 大语言模型基准测试的那些事

张开发
2026/4/6 19:58:07 15 分钟阅读

分享文章

你真的看懂 AI 排行榜了吗?聊聊 LLM 大语言模型基准测试的那些事
每隔几周就会有一个新的大模型横空出世发布会上必然附带一张令人眼花缭乱的评分表MMLU 92 分、HumanEval 88%、GSM8K 94%……数字越堆越高但这些分数究竟在衡量什么又能说明什么问题今天我们就来把 LLM 基准测试这件事彻底讲清楚。基准测试是什么为什么重要简单来说LLM 基准测试就是一套标准化的考试体系。它准备好题目、规定评分规则让模型作答最终给出一个可量化的分数。这件事之所以重要是因为大模型的能力极其多元——它要写代码、做数学、翻译语言、回答常识题、甚至进行多轮对话。如果没有统一的测量框架不同模型之间的比较就会变成公说公有理的口水战。基准测试的存在让研究者能够客观地找到模型的弱点指导后续的训练方向也让开发者在选型时有据可依而不是凭直觉拍板。在分类上研究者通常从两个维度来看一个基准测试一是评估标准——衡量的是客观事实即有明确对错的真实情况还是主观的人类偏好二是问题来源——题库是固定的静态集合还是在真实交互中实时生成的。很多基准测试会横跨这两个维度。一次基准测试是怎么运作的整个流程分三步设置阶段测试框架准备好数据集涵盖编程挑战、数学题、科学问答、现实对话等各种类型任务清单也同步就位。测试阶段模型以三种方式之一接受测试给少量示例再作答少样本、完全不给示例直接作答零样本或者先在相关数据上微调再测微调。三种方式侧重考察的能力各有不同——零样本最能体现模型的泛化能力微调则最能体现针对性能力的上限。评分阶段系统将模型的输出与标准答案进行比对最终生成 0 到 100 之间的分数。部分基准测试还引入人工评估以捕捉连贯性、相关性这类难以量化的维度。那么多基准测试各自测什么市面上的主流基准测试大致可以分为几个方向每一个背后都有独特的设计逻辑。知识与推理类覆盖范围最广也是最常被引用的一类。ARCAI2 推理挑战以超过 7000 道小学自然科学题为题库分为简单组和挑战组两档难度计分直接答对得 1 分给出多个答案且其中一个正确则按比例给分。MMLU 则是名副其实的全科联考——57 个学科、超过 15000 道选择题从 STEM 到人文社科无所不包仅在少样本和零样本设置下评测最终取各科准确率的平均值作为总分。GSM8K 专攻数学推理8500 道小学数学单词题要求模型用自然语言写出解题过程而非直接给出数字并由 AI 验证器来判断解题逻辑是否正确。代码生成类随着 AI 辅助编程的兴起这一方向受到的关注与日俱增。HumanEval 给出编程题用单元测试通过率作为判分标准其核心指标Passk描述的是在 k 个生成方案中至少有一个能通过测试的概率——这与真实开发者验证代码的逻辑高度一致。MBPPMostly Basic Python Problems包含 900 余道编码任务同样以测试用例通过率为准并额外统计任意样本解决问题的比例与各自解决对应任务的比例两个维度。SWE-bench 则更贴近生产实战模型的任务是直接修复真实代码库中的 bug 或响应功能请求评估指标是成功解决的任务实例比例。对话与指令遵循类考察模型在真实交互场景下的表现。MT-Bench 设计了编码、推理、数学、写作、角色扮演等八个领域共 80 道开放式多轮问题由 GPT-4 担任评审来打分——用一个大模型评估另一个大模型本身就是一种颇具争议又不得不采用的务实方案。Chatbot Arena 的思路则截然不同让真实用户与两个匿名模型同时对话对话结束后投票选出更满意的一方再通过统计方法汇总成排名。这套真人盲测机制让它成为目前最接近用户真实体感的评测平台之一。常识推理类考察模型对世界的基本认知。HellaSwag 让模型从多个选项中选出最合理的句子结尾关键在于那些错误答案并非显而易见的废话而是经过对抗筛选算法精心生成的看似合理但实则荒谬的干扰项专门迷惑浮于表面的模型。Winogrande 在经典 Winograd 挑战赛的基础上扩展到 44000 道众包题同样引入对抗筛选以准确率为最终评分标准。真实性类专门盯着模型的幻觉问题。TruthfulQA 在 38 个主题上准备了 800 余道问题评估模型能否给出真实而非听起来很合理的回答。它将人工评估与经 BLEU、ROUGE 指标微调的 GPT-3 结合使用以预测人类对信息真实性和有用性的判断——毕竟说了什么和说得对不对是两件完全不同的事。评分背后的指标不同任务用不同指标。翻译任务用 BLEU计算模型译文与人工译文在词序上的吻合程度摘要任务用 ROUGE重点看关键信息有没有被保留分类任务用准确率与召回率F1 分数则把两者融为一体平衡误判与漏判。值得注意的是单一指标从来不够全面。实践中通常将多个量化指标结合使用再辅以人工定性评估才能得到相对可靠的综合判断。基准测试的局限高分不等于真的强这里是最关键、也最容易被忽视的部分。评分饱和一旦顶尖模型在某个测试上满分这个测试就失去了区分度必须被更难的版本取代。很多你现在看到的老基准测试早已沦为区分不了顶级模型的工具。覆盖局限基准测试的数据集大多来自通用领域遇到边缘场景或高度专业的垂直行业分数的参考价值就大打折扣。一个在法律或生物医学领域需要表现卓越的模型靠 MMLU 的物理化学题是测不出来的。过拟合风险如果模型的训练数据和基准测试的题库高度重叠分数就会虚高——模型记住了答案而不是真的学会了推理。这是整个评测体系最难根治的顽疾。能力滞后基准测试只能测已知的能力。随着模型涌现出新的能力比如工具调用、长上下文推理现有基准往往来不及覆盖造成评估盲区。排行榜能参考但别迷信LLM 排行榜的存在是有价值的它提供了一种快速比较多个模型的方式。Hugging Face 的开放式 LLM 排行榜就综合了 ARC、HellaSwag、MMLU、GSM8K、TruthfulQA 和 Winogrande 六项基准影响力颇大。但读排行榜要有自己的判断这个排行榜涵盖的基准与你的实际场景匹配吗模型是否可能在这些特定题库上做了针对性训练人工评估的权重够不够最终基准测试是辅助决策的工具不是终点。真正重要的永远是把模型放进你自己的业务场景里跑一跑。数字之外的那部分才是真功夫所在。更多transformerVITswin tranformer 参考头条号人工智能研究所 v号人工智能研究Suo, 启示AI科技动画详解transformer 在线视频教程

更多文章