当前位置：首页 > 新闻资讯 > ai智能 > MoE与思维链助力大模型技术路线破局：MoE模型提升效果显著，拥有人类“慢思考”的特质

MoE与思维链助力大模型技术路线破局：MoE模型提升效果显著，拥有人类“慢思考”的特质

来源：国泰君安证券编辑：摩登7 时间：2024/11/6 主题：其他 [加盟]

巨额算力投入成为技术和效益优化的瓶颈，技术路径破局迫在眉睫。从效益端看，基于 Transformer 架构的模型在训练计算量（training FLOPs）达到一定量级时，模型性能才出现向上的“拐点”，因此在大模型训练任务中，算力成为必须的基础性资源。但随着模型越来越大，算力成本越来越高，成本飙升源于模型复杂度和数据量攀升对计算资源的需求。Anthropic 首席执行官表示，三年内 AI 模型的训练成本将上升到 100 亿美元甚至 1000 亿美元。巨额的大模型训练投入一定程度减缓了技术进步和效益提升，因此技术路径破局尤为关键。当前 MoE 以及 OpenAI o1 的“思维链”是重要探索实践。

MoE 框架是对 Transformer 架构的优化，关键在于路由策略及微调。其能在不给训练和推理阶段引入过大计算需求的前提下大幅提升模型能力。在基于 Transformer 的大型语言模型（LLM）中，每个混合专家（MoE）层的组成形式通常是𝑁个“专家网络”搭配一个“门控网络”G。门控函数（也被称路由函数）是所有 MoE 架构的基础组件，作用是协调使用专家计算以及组合各专家的输出。根据对每个输入的处理方法，该门控可分为三种类型：稀疏式、密集式和 soft 式。其中稀疏式门控机制是激活部分专家，而密集式是激活所有专家，soft 式则包括完全可微方法，包括输入 token 融合和专家融合。

MoE 在 NLP、CV、语音识别以及机器人等领域表现出色，且在更高性能的大模型推理芯片 LPU 加持下，MoE模型提升效果显著。

OpenAI o1 基于“思维链”的创新推理模式，学会人类“慢思考”，专业领域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的一步在于拥有人类“慢思考”的特质：系统性、逻辑性、批判性、意识性。在响应用户提出的难题之前，OpenAI o1 会产生一个缜密的内部思维链，进行长时间的思考，完善思考过程、意识逻辑错误、优化使用策略、推理正确答案。这种深度思考能力在处理数学、编程、代码、优化等高难度问题时发挥重要作用，能够进行博士级别的科学问答，成为真正的通用推理。推理侧的应用模式创新有望在更为专业的领域创造价值应用，从通用的偏娱乐领域逐步过渡到偏严肃的专业领域场景，AI 大模型的真正实践价值有望进一步释放，因此 o1 模型提供的新应用范式和能力维度在大模型技术路线演绎中，具有里程碑意义。

附件：MoE与思维链助力大模型技术路线破局：MoE模型提升效果显著，拥有人类“慢思考”的特质

MoE与思维链助力大模型技术路线破局：MoE模型提升效果显著，拥有人类“慢思考”的特质

2024AIGC创新应用洞察报告：市场规模达到360.6亿美金,增长率达到46.5%

中国文娱行业人工智能行业应用发展图谱：市场规模将达到1.21万亿，侧重IP版权交易与多元化开发

在线教育龙头多邻国启示录商业模式珠玉在前AI技术助力突破国内在线教育星辰大海，市场规模已达到1665.5亿美元

2024全球智能家居市场深度研究报告:WiFi-5升级到WiFi-7,智能家居市场保持两位数增长

华为2024一城一云一模型发展研究报告：深度融合,智慧城市的新架构和大模型等

2024年中国人工智能药物发现与开发行业概览-从“制药”走向“智药”：成功率可从12%提高到约14%

2024年大模型+知识库厂商全景报告：发展历程、大模型与知识库结合的趋势,明确了报告的使用权限

智能网联汽车标准法规月报2024：联汽车管理规范、车载端信息安全技术要求、车辆在环仿真测试平台等

人工智能开启汽车产业智能化新时代,2024AIEV产业研究:者提供更加安全、便捷、舒适的驾乘体;带来新的增长动力和市场机遇

生成式人工智能应用现状前沿洞察2024:成式AI的发展现状以及未来趋势,提出切实可行的建议

中国人工智能教育蓝皮书：教育的定义,市场现状,发展趋势以及主要企业的动态

2024年全球人工智能现状全景报告：AI安全能力建设,计算机视觉和生成式AI在多个领域取得显著进展

2024年中国金融大模型产业发展洞察报告-产业定制,能力适配,跨领域合作和协同应用等

服务机器人(迎宾、讲解、导诊...)