巨额算力投入成为技术和效益优化的瓶颈,技术路径破局迫在眉 睫。从效益端看,基于 Transformer 架构的模型在训练计算量(training FLOPs)达到一定量级时,模型性能才出现向上的“拐点”,因此在 大模型训练任务中,算力成为必须的基础性资源。但随着模型越来 越大,算力成本越来越高,成本飙升源于模型复杂度和数据量攀升 对计算资源的需求。Anthropic 首席执行官表示,三年内 AI 模型的 训练成本将上升到 100 亿美元甚至 1000 亿美元。巨额的大模型训 练投入一定程度减缓了技术进步和效益提升,因此技术路径破局尤 为关键。当前 MoE 以及 OpenAI o1 的“思维链”是重要探索实践。
MoE 框架是对 Transformer 架构的优化,关键在于路由策略及微 调。其能在不给训练和推理阶段引入过大计算需求的前提下大幅提 升模型能力。在基于 Transformer 的大型语言模型(LLM)中,每个 混合专家(MoE)层的组成形式通常是𝑁个“专家网络”搭配一个“门 控网络”G。门控函数(也被称路由函数)是所有 MoE 架构的基础 组件,作用是协调使用专家计算以及组合各专家的输出。根据对每 个输入的处理方法,该门控可分为三种类型:稀疏式、密集式和 soft 式。其中稀疏式门控机制是激活部分专家,而密集式是激活所有专 家,soft 式则包括完全可微方法,包括输入 token 融合和专家融合。
MoE 在 NLP、CV、语音识别以及机器人等领域表现出色,且在更 高性能的大模型推理芯片 LPU 加持下,MoE模型提升效果显著。
OpenAI o1 基于“思维链”的创新推理模式,学会人类“慢思考”, 专业领域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的 一步在于拥有人类“慢思考”的特质:系统性、逻辑性、批判性、 意识性。在响应用户提出的难题之前,OpenAI o1 会产生一个缜密 的内部思维链,进行长时间的思考,完善思考过程、意识逻辑错误、 优化使用策略、推理正确答案。这种深度思考能力在处理数学、编 程、代码、优化等高难度问题时发挥重要作用,能够进行博士级别 的科学问答,成为真正的通用推理。推理侧的应用模式创新有望在 更为专业的领域创造价值应用,从通用的偏娱乐领域逐步过渡到偏 严肃的专业领域场景,AI 大模型的真正实践价值有望进一步释放, 因此 o1 模型提供的新应用范式和能力维度在大模型技术路线演绎 中,具有里程碑意义。
智能服务机器人 |