flageval.baai.ac.cn
暂无截图flageval.baai.ac.cn

00
FlagEval
FlagEval(天秤)是北京智源人工智能研究院(BAAI)推出的科学、公正、开放的大模型评测体系及开放平台,为研究人员提供全面评估基础模型及训练算法性能的工具和方法。FlagEval采用“能力-任务-指标”三维评测框架,从多个维度对大模型的认知能力进行评估,涵盖对话、问答、情感分析等多种应用场景,提供超过22个数据集和8万道评测题目。
Visit Websiteflageval.baai.ac.cn
About
概述
FlagEval(天秤)是由北京智源人工智能研究院(BAAI)推出的大模型评测体系与开放平台,面向研究人员、开发者和企业团队,提供较为系统的模型评估工具与方法。平台强调科学、公正、开放,适用于基础模型、训练算法以及多模态模型的性能分析。
FlagEval采用“能力-任务-指标”三维评测框架,从多个维度衡量模型在真实应用中的表现,覆盖对话、问答、情感分析等常见场景,并支持文本、图像、视频等多种数据类型。根据公开介绍,平台已提供超过22个数据集、8万道评测题目,并覆盖大量开源与闭源模型,便于进行横向对比和结果分析。
主要功能
- 三维评测框架:基于“能力-任务-指标”设计评测体系,更适合从认知能力与任务效果两个层面分析模型表现。
- 丰富的评测数据:提供超过22个数据集和8万道评测题目,覆盖不同场景、难度和语言类型。
- 多模态模型评测:支持文本、图像、视频等多种模态,适合大语言模型与多模态模型统一评估。
- 自动化评测流程:支持主观评测与客观评测的自动化流水线,帮助用户提升评测效率。
- 广泛的模型兼容性:支持多种 AI 框架与硬件架构,包括 PyTorch、MindSpore 以及多类国产/主流算力平台。
- 排行榜与结果展示:提供评测结果表格和排行榜,方便查看不同模型在各项任务中的成绩。
- 任务创建与上传能力:用户可上传模型、代码与配置,创建评测任务并在线查看结果。
- 社区共建机制:支持持续更新评测内容,鼓励研究者贡献数据集、模型和评测方案。
产品定价
目前公开信息中未明确提供标准化定价说明。FlagEval更偏向科研与开放评测平台,具体使用方式、资源限制或服务规则,建议以官网最新页面和平台实际说明为准。
常见问题
FlagEval适合哪些人使用?
适合大模型研究人员、算法工程师、模型平台团队以及需要做模型选型和性能验证的企业用户。
FlagEval能评测哪些模型?
公开资料显示,平台支持文本、多模态等多类模型评测,并覆盖大量开源和闭源模型。
是否支持自动化评测?
支持。平台提供主观与客观评测的自动化流水线,用户可提交任务后由系统完成评测流程。
使用前需要准备什么?
通常需要准备待评测模型、推理代码及相关配置文件;创建任务时还需填写评测领域、任务类型、镜像与算力配置等参数。
FlagEval的核心价值是什么?
它的核心价值在于提供相对统一、标准化的评测框架,帮助用户更高效地比较模型能力、分析优劣,并为模型优化和选型提供依据。