
2021年6月,北京智源研究院(BAAI)推出了悟道1.0的后续版本悟道2.0,作为中国第一个超大规模智能模型系统。悟道是一个语言模型,旨在在人类层面的思维上超越 OpenAI 的 GPT-3 和谷歌的 LaMDA。
About
概述
悟道是北京智源人工智能研究院(BAAI)推出的超大规模智能模型系统,悟道2.0于2021年6月发布,是国内较早面向大模型方向的重要研究成果之一。该项目定位于多模态与大规模预训练模型研究,结合中文与英文文本、图像等数据进行训练,用于探索更强的通用表示与生成能力。
从公开资料来看,悟道2.0基于大规模高质量数据集训练,总训练数据约为4.9TB,其中包括中文文本、中文图文数据以及英文文本数据。其底层训练采用了基于开源 FastMoE 的 MoE(Mixture of Experts,专家混合) 架构,以提升超大模型的训练效率与推理能力。
作为科研属性较强的模型系统,悟道更适合被理解为面向AI研究、大模型训练和多模态建模的基础能力平台,而不是普通用户直接使用的消费级应用。
主要功能
-
超大规模预训练模型研究
- 面向语言理解、生成及通用智能方向开展基础模型探索。
-
中英文多源数据训练
- 使用中文文本、英文文本及中文图文数据进行联合训练,支持更丰富的语义建模能力。
-
多模态能力探索
- 不仅覆盖文本,还结合图像与文本数据,适用于多模态预训练研究场景。
-
基于 MoE 架构训练
- 采用专家混合机制,将不同任务或输入交由更适合的“专家模型”处理,以提高训练和推理效率。
-
依托 FastMoE 开源系统
- 基于 FastMoE 进行模型训练,支持大规模并行训练与专家路由机制实现。
-
服务科研与开发场景
- 适合关注大模型、预训练、模型架构设计及人工智能底层能力研究的开发者与科研团队。
产品定价
目前公开页面未提供明确的商业化定价信息。
从官网与现有资料来看,悟道更偏向研究项目和模型系统成果展示,是否开放API、商用接入方式、调用费用或企业合作方案,需以北京智源人工智能研究院的最新官方说明为准。
常见问题
悟道适合哪些人?
更适合人工智能研究人员、高校实验室、算法工程师及关注大模型底层技术的开发团队。
悟道是聊天机器人吗?
公开资料显示,悟道本质上是超大规模预训练模型系统,不应简单等同于面向终端用户的聊天机器人产品。
悟道有哪些训练数据类型?
已公开的信息包括:
- 1.2TB 中文文本数据
- 2.5TB 中文图文数据
- 1.2TB 英文文本数据
悟道的技术特点是什么?
其代表性特点是采用 MoE(专家混合) 架构,并基于 FastMoE 训练,使模型能够根据输入内容动态调用更合适的专家模块。
Related Tools
View allLiner.ai 是一款无需编程即可构建和部署机器学习模型的工具,适合没有机器学习背景的用户快速完成训练数据到可集成模型的转换。
Pico 是一个基于 GPT-4 的文本生成应用工具,用户可通过自然语言描述需求,快速创建简单的 Web 应用,适合不具备编程能力但有产品想法的人使用。
Imagica是一款无代码AI应用开发平台,支持用户在不编写代码的情况下构建AI应用,并结合实时数据与多模态能力完成交互式产品设计。
WidgetsAI 是一款面向 AI 应用构建的无代码小部件平台,支持创建、嵌入和白标化 AI 组件,适合希望快速集成 AI 功能而不进行编程的团队或个人。
ComfyUI 是一款面向 Stable Diffusion 的模块化图形界面工具,采用节点式工作流设计,便于用户更细致地控制图像生成过程。
Lightning AI是一个用于构建和部署模型及全栈AI应用的开发框架,提供训练、服务和超参数优化等能力,帮助开发者减少基础设施配置工作。