
LLMEval3
LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。
About
概述
LLMEval3 是由复旦大学 NLP 实验室推出的大模型评测基准,定位于AI 模型评测,重点考察大语言模型在专业知识理解与生成问答方面的能力。相较于通用能力测试,LLMEval-3 更聚焦学科化、体系化的知识评估,适合用于观察模型在专业领域中的真实表现。
该评测基准覆盖教育部划定的 13 个学科门类,包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学,并进一步细分到 50 余个二级学科。整体题库规模约 20 万道标准生成式问答题目,能够为模型提供较大范围、较高密度的专业知识测评参考。
对于研究机构、模型团队以及关注模型专业能力表现的开发者来说,LLMEval3 可作为对比不同大模型学科能力、检验专业场景适应性的评测基准之一。
主要功能
-
专业知识能力评测
- 重点评估大模型在专业学科中的知识掌握、理解与回答能力。
- 适用于检验模型是否具备从通识走向专业应用的基础能力。
-
覆盖 13 个学科门类
- 围绕教育部学科体系构建,学科范围较广。
- 包括人文社科、理工农医、军事与艺术等多个方向。
-
细分 50 余个二级学科
- 评测粒度不仅停留在一级学科层面,还进一步深入到更细分的专业领域。
- 有助于更具体地定位模型在某类学科中的优势与短板。
-
约 20 万道标准生成式问答题
- 采用大规模题库支撑评测,能够提供更丰富的测试样本。
- 适合用于模型横向比较、阶段性能力跟踪与基准研究。
-
面向大模型基准测试场景
- 可作为学术研究、模型训练效果验证、专业能力对比分析的参考工具。
- 对关注中文或多学科知识评测的团队具有一定价值。
产品定价
目前公开信息中未明确提供 LLMEval3 的定价说明。从现有介绍来看,它更偏向于评测基准与研究项目。是否开放使用、是否需要申请权限,建议以官网最新信息为准:
- 官网地址:http://llmeval.com/index
常见问题
LLMEval3 主要评测什么?
LLMEval3 主要评测大语言模型的专业知识能力,尤其是模型在不同学科中的生成式问答表现,而不只是一般性的聊天或常识回答能力。
LLMEval3 覆盖哪些学科?
其覆盖教育部划定的 13 个学科门类,并包含 50 余个二级学科,学科范围较全面。
LLMEval3 的题库规模有多大?
根据公开介绍,LLMEval-3 共包含约 20 万道标准生成式问答题目。
适合哪些用户关注?
比较适合以下人群:
- 大模型研发团队
- AI 评测研究人员
- 关注学科能力表现的开发者
- 高校与科研机构中的自然语言处理研究者
是否有最新功能说明或截图?
当前公开抓取到的官网信息较少,暂未发现更详细的功能页面或可用配图。若需了解最新评测设置、数据说明或使用方式,建议直接访问官网查看。