
详细介绍
概述
MMLU(Massive Multitask Language Understanding)是一项面向大语言模型的综合性知识与语言理解评测基准,由加州大学伯克利分校研究人员于 2020 年提出。它是当前最常被引用的通用能力测评之一,常用于比较不同模型在多学科、多任务场景下的表现。
MMLU 通过英文选择题的形式,考察模型在广泛知识领域中的理解、推理与答题能力。其覆盖范围较广,既包含基础学科,也包含专业领域,因此常被视为衡量模型“知识广度”和“综合理解能力”的重要参考指标。
访问链接:https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
主要功能
-
多学科综合评测
覆盖 57 个任务,涉及初等数学、美国历史、计算机科学、法律等多个领域。 -
衡量模型知识覆盖范围
用于测试大模型是否具备较广泛的通识知识和学科知识储备。 -
评估语言理解能力
通过英文题目考察模型对问题表述、选项差异和上下文信息的理解能力。 -
支持模型横向对比
由于 MMLU 已成为行业内常见基准,不同模型的成绩可用于直观比较整体能力。 -
适合作为通用能力参考指标
在学术研究和模型发布中,MMLU 常被用作展示模型综合表现的标准测试之一。
产品定价
MMLU 本质上是一个评测基准,并非独立的商业化 SaaS 产品,因此通常没有单独的产品定价。
如果通过 Papers with Code 页面查看排行榜和相关论文信息,一般可免费访问;具体评测成本则取决于你使用的模型、算力平台和推理方式。
常见问题
MMLU 主要评测什么?
MMLU 主要评测大语言模型在多领域知识问答中的表现,重点关注知识掌握、语言理解和一定程度的推理能力。
MMLU 包含哪些内容?
该基准包含 57 项任务,覆盖人文学科、社会科学、STEM 领域以及部分专业考试风格的问题,题目语言以英文为主。
MMLU 适合用来判断模型真实能力吗?
它适合用于衡量模型的综合知识与理解水平,但不能完全代表模型在长文本生成、工具调用、多轮对话或特定行业场景中的实际表现。因此通常需要结合其他评测一起看。
为什么 MMLU 很常见?
因为它覆盖面广、引用率高、便于横向比较,已经成为许多大模型论文和排行榜中常见的核心评测指标之一。