MMLU

详细介绍

概述

MMLU（Massive Multitask Language Understanding）是一项面向大语言模型的综合性知识与语言理解评测基准，由加州大学伯克利分校研究人员于 2020 年提出。它是当前最常被引用的通用能力测评之一，常用于比较不同模型在多学科、多任务场景下的表现。

MMLU 通过英文选择题的形式，考察模型在广泛知识领域中的理解、推理与答题能力。其覆盖范围较广，既包含基础学科，也包含专业领域，因此常被视为衡量模型“知识广度”和“综合理解能力”的重要参考指标。

访问链接：https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

主要功能

多学科综合评测
覆盖 57 个任务，涉及初等数学、美国历史、计算机科学、法律等多个领域。
衡量模型知识覆盖范围
用于测试大模型是否具备较广泛的通识知识和学科知识储备。
评估语言理解能力
通过英文题目考察模型对问题表述、选项差异和上下文信息的理解能力。
支持模型横向对比
由于 MMLU 已成为行业内常见基准，不同模型的成绩可用于直观比较整体能力。
适合作为通用能力参考指标
在学术研究和模型发布中，MMLU 常被用作展示模型综合表现的标准测试之一。

产品定价

MMLU 本质上是一个评测基准，并非独立的商业化 SaaS 产品，因此通常没有单独的产品定价。
如果通过 Papers with Code 页面查看排行榜和相关论文信息，一般可免费访问；具体评测成本则取决于你使用的模型、算力平台和推理方式。

常见问题

MMLU 主要评测什么？

MMLU 主要评测大语言模型在多领域知识问答中的表现，重点关注知识掌握、语言理解和一定程度的推理能力。

MMLU 包含哪些内容？

该基准包含 57 项任务，覆盖人文学科、社会科学、STEM 领域以及部分专业考试风格的问题，题目语言以英文为主。

MMLU 适合用来判断模型真实能力吗？

它适合用于衡量模型的综合知识与理解水平，但不能完全代表模型在长文本生成、工具调用、多轮对话或特定行业场景中的实际表现。因此通常需要结合其他评测一起看。

为什么 MMLU 很常见？

因为它覆盖面广、引用率高、便于横向比较，已经成为许多大模型论文和排行榜中常见的核心评测指标之一。

详细介绍

概述

访问链接：https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

主要功能

多学科综合评测
覆盖 57 个任务，涉及初等数学、美国历史、计算机科学、法律等多个领域。
衡量模型知识覆盖范围
用于测试大模型是否具备较广泛的通识知识和学科知识储备。
评估语言理解能力
通过英文题目考察模型对问题表述、选项差异和上下文信息的理解能力。
支持模型横向对比
由于 MMLU 已成为行业内常见基准，不同模型的成绩可用于直观比较整体能力。
适合作为通用能力参考指标
在学术研究和模型发布中，MMLU 常被用作展示模型综合表现的标准测试之一。

产品定价

常见问题

MMLU 主要评测什么？

MMLU 主要评测大语言模型在多领域知识问答中的表现，重点关注知识掌握、语言理解和一定程度的推理能力。

MMLU 包含哪些内容？

该基准包含 57 项任务，覆盖人文学科、社会科学、STEM 领域以及部分专业考试风格的问题，题目语言以英文为主。

MMLU 适合用来判断模型真实能力吗？

为什么 MMLU 很常见？

因为它覆盖面广、引用率高、便于横向比较，已经成为许多大模型论文和排行榜中常见的核心评测指标之一。

详细介绍

概述

主要功能

产品定价

常见问题

MMLU 主要评测什么？

MMLU 包含哪些内容？

MMLU 适合用来判断模型真实能力吗？

为什么 MMLU 很常见？

同类推荐

MMLU

详细介绍

概述

主要功能

产品定价

常见问题

MMLU 主要评测什么？

MMLU 包含哪些内容？

MMLU 适合用来判断模型真实能力吗？

为什么 MMLU 很常见？

同类推荐