FlagEval

About

概述

FlagEval（天秤）是由北京智源人工智能研究院（BAAI）推出的大模型评测体系与开放平台，面向研究人员、开发者和企业团队，提供较为系统的模型评估工具与方法。平台强调科学、公正、开放，适用于基础模型、训练算法以及多模态模型的性能分析。

FlagEval采用“能力-任务-指标”三维评测框架，从多个维度衡量模型在真实应用中的表现，覆盖对话、问答、情感分析等常见场景，并支持文本、图像、视频等多种数据类型。根据公开介绍，平台已提供超过22个数据集、8万道评测题目，并覆盖大量开源与闭源模型，便于进行横向对比和结果分析。

主要功能

三维评测框架：基于“能力-任务-指标”设计评测体系，更适合从认知能力与任务效果两个层面分析模型表现。
丰富的评测数据：提供超过22个数据集和8万道评测题目，覆盖不同场景、难度和语言类型。
多模态模型评测：支持文本、图像、视频等多种模态，适合大语言模型与多模态模型统一评估。
自动化评测流程：支持主观评测与客观评测的自动化流水线，帮助用户提升评测效率。
广泛的模型兼容性：支持多种 AI 框架与硬件架构，包括 PyTorch、MindSpore 以及多类国产/主流算力平台。
排行榜与结果展示：提供评测结果表格和排行榜，方便查看不同模型在各项任务中的成绩。
任务创建与上传能力：用户可上传模型、代码与配置，创建评测任务并在线查看结果。
社区共建机制：支持持续更新评测内容，鼓励研究者贡献数据集、模型和评测方案。

产品定价

目前公开信息中未明确提供标准化定价说明。FlagEval更偏向科研与开放评测平台，具体使用方式、资源限制或服务规则，建议以官网最新页面和平台实际说明为准。

常见问题

FlagEval适合哪些人使用？

适合大模型研究人员、算法工程师、模型平台团队以及需要做模型选型和性能验证的企业用户。

FlagEval能评测哪些模型？

公开资料显示，平台支持文本、多模态等多类模型评测，并覆盖大量开源和闭源模型。

是否支持自动化评测？

支持。平台提供主观与客观评测的自动化流水线，用户可提交任务后由系统完成评测流程。

使用前需要准备什么？

通常需要准备待评测模型、推理代码及相关配置文件；创建任务时还需填写评测领域、任务类型、镜像与算力配置等参数。

FlagEval的核心价值是什么？

它的核心价值在于提供相对统一、标准化的评测框架，帮助用户更高效地比较模型能力、分析优劣，并为模型优化和选型提供依据。

About

概述

主要功能

三维评测框架：基于“能力-任务-指标”设计评测体系，更适合从认知能力与任务效果两个层面分析模型表现。
丰富的评测数据：提供超过22个数据集和8万道评测题目，覆盖不同场景、难度和语言类型。
多模态模型评测：支持文本、图像、视频等多种模态，适合大语言模型与多模态模型统一评估。
自动化评测流程：支持主观评测与客观评测的自动化流水线，帮助用户提升评测效率。
广泛的模型兼容性：支持多种 AI 框架与硬件架构，包括 PyTorch、MindSpore 以及多类国产/主流算力平台。
排行榜与结果展示：提供评测结果表格和排行榜，方便查看不同模型在各项任务中的成绩。
任务创建与上传能力：用户可上传模型、代码与配置，创建评测任务并在线查看结果。
社区共建机制：支持持续更新评测内容，鼓励研究者贡献数据集、模型和评测方案。

产品定价

常见问题

FlagEval适合哪些人使用？

适合大模型研究人员、算法工程师、模型平台团队以及需要做模型选型和性能验证的企业用户。

FlagEval能评测哪些模型？

公开资料显示，平台支持文本、多模态等多类模型评测，并覆盖大量开源和闭源模型。

是否支持自动化评测？

支持。平台提供主观与客观评测的自动化流水线，用户可提交任务后由系统完成评测流程。

使用前需要准备什么？

通常需要准备待评测模型、推理代码及相关配置文件；创建任务时还需填写评测领域、任务类型、镜像与算力配置等参数。

FlagEval的核心价值是什么？

它的核心价值在于提供相对统一、标准化的评测框架，帮助用户更高效地比较模型能力、分析优劣，并为模型优化和选型提供依据。

About

概述

主要功能

产品定价

常见问题

FlagEval适合哪些人使用？

FlagEval能评测哪些模型？

是否支持自动化评测？

使用前需要准备什么？

FlagEval的核心价值是什么？

Related Tools

FlagEval

About

概述

主要功能

产品定价

常见问题

FlagEval适合哪些人使用？

FlagEval能评测哪些模型？

是否支持自动化评测？

使用前需要准备什么？

FlagEval的核心价值是什么？

Related Tools