LLMEval3

About

概述

LLMEval3 是由复旦大学 NLP 实验室推出的大模型评测基准，定位于AI 模型评测，重点考察大语言模型在专业知识理解与生成问答方面的能力。相较于通用能力测试，LLMEval-3 更聚焦学科化、体系化的知识评估，适合用于观察模型在专业领域中的真实表现。

该评测基准覆盖教育部划定的 13 个学科门类，包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学，并进一步细分到 50 余个二级学科。整体题库规模约 20 万道标准生成式问答题目，能够为模型提供较大范围、较高密度的专业知识测评参考。

对于研究机构、模型团队以及关注模型专业能力表现的开发者来说，LLMEval3 可作为对比不同大模型学科能力、检验专业场景适应性的评测基准之一。

主要功能

专业知识能力评测
- 重点评估大模型在专业学科中的知识掌握、理解与回答能力。
- 适用于检验模型是否具备从通识走向专业应用的基础能力。
覆盖 13 个学科门类
- 围绕教育部学科体系构建，学科范围较广。
- 包括人文社科、理工农医、军事与艺术等多个方向。
细分 50 余个二级学科
- 评测粒度不仅停留在一级学科层面，还进一步深入到更细分的专业领域。
- 有助于更具体地定位模型在某类学科中的优势与短板。
约 20 万道标准生成式问答题
- 采用大规模题库支撑评测，能够提供更丰富的测试样本。
- 适合用于模型横向比较、阶段性能力跟踪与基准研究。
面向大模型基准测试场景
- 可作为学术研究、模型训练效果验证、专业能力对比分析的参考工具。
- 对关注中文或多学科知识评测的团队具有一定价值。

产品定价

目前公开信息中未明确提供 LLMEval3 的定价说明。从现有介绍来看，它更偏向于评测基准与研究项目。是否开放使用、是否需要申请权限，建议以官网最新信息为准：

官网地址：http://llmeval.com/index

常见问题

LLMEval3 主要评测什么？

LLMEval3 主要评测大语言模型的专业知识能力，尤其是模型在不同学科中的生成式问答表现，而不只是一般性的聊天或常识回答能力。

LLMEval3 覆盖哪些学科？

其覆盖教育部划定的 13 个学科门类，并包含 50 余个二级学科，学科范围较全面。

LLMEval3 的题库规模有多大？

根据公开介绍，LLMEval-3 共包含约 20 万道标准生成式问答题目。

适合哪些用户关注？

比较适合以下人群：

大模型研发团队
AI 评测研究人员
关注学科能力表现的开发者
高校与科研机构中的自然语言处理研究者

是否有最新功能说明或截图？

当前公开抓取到的官网信息较少，暂未发现更详细的功能页面或可用配图。若需了解最新评测设置、数据说明或使用方式，建议直接访问官网查看。

About

概述

对于研究机构、模型团队以及关注模型专业能力表现的开发者来说，LLMEval3 可作为对比不同大模型学科能力、检验专业场景适应性的评测基准之一。

主要功能

专业知识能力评测
- 重点评估大模型在专业学科中的知识掌握、理解与回答能力。
- 适用于检验模型是否具备从通识走向专业应用的基础能力。
覆盖 13 个学科门类
- 围绕教育部学科体系构建，学科范围较广。
- 包括人文社科、理工农医、军事与艺术等多个方向。
细分 50 余个二级学科
- 评测粒度不仅停留在一级学科层面，还进一步深入到更细分的专业领域。
- 有助于更具体地定位模型在某类学科中的优势与短板。
约 20 万道标准生成式问答题
- 采用大规模题库支撑评测，能够提供更丰富的测试样本。
- 适合用于模型横向比较、阶段性能力跟踪与基准研究。
面向大模型基准测试场景
- 可作为学术研究、模型训练效果验证、专业能力对比分析的参考工具。
- 对关注中文或多学科知识评测的团队具有一定价值。

产品定价

官网地址：http://llmeval.com/index

常见问题

LLMEval3 主要评测什么？

LLMEval3 主要评测大语言模型的专业知识能力，尤其是模型在不同学科中的生成式问答表现，而不只是一般性的聊天或常识回答能力。

LLMEval3 覆盖哪些学科？

其覆盖教育部划定的 13 个学科门类，并包含 50 余个二级学科，学科范围较全面。

LLMEval3 的题库规模有多大？

根据公开介绍，LLMEval-3 共包含约 20 万道标准生成式问答题目。

适合哪些用户关注？

比较适合以下人群：

大模型研发团队
AI 评测研究人员
关注学科能力表现的开发者
高校与科研机构中的自然语言处理研究者

是否有最新功能说明或截图？

当前公开抓取到的官网信息较少，暂未发现更详细的功能页面或可用配图。若需了解最新评测设置、数据说明或使用方式，建议直接访问官网查看。

About

概述

主要功能

产品定价

常见问题

LLMEval3 主要评测什么？

LLMEval3 覆盖哪些学科？

LLMEval3 的题库规模有多大？

适合哪些用户关注？

是否有最新功能说明或截图？

Related Tools

LLMEval3

About

概述

主要功能

产品定价

常见问题

LLMEval3 主要评测什么？

LLMEval3 覆盖哪些学科？

LLMEval3 的题库规模有多大？

适合哪些用户关注？

是否有最新功能说明或截图？

Related Tools