当前位置：首页 > 新闻资讯 > 机器人开发 > 大模型在机器人领域研究与应用案例汇总

大模型在机器人领域研究与应用案例汇总

来源：高工机器人编辑：摩登7 时间：2024/10/17 主题：其他 [加盟]

目前大模型技术已从单纯的大语言模型（LLM）发展到图像-语言多模态模型（VLM）乃至图像-语言-动作多模态模型（VLA），其中图像-语言-动作多模态模型（VLA）的推出，实现了数据与处理任务的跃升。从文本到图像再到现实世界，大模型的数据模态逐渐丰富，数据规模的数量级迅速增长，大模型的应用场景和价值量也成比例扩张。

在人形机器人领域，AI 大模型将会从感知（语音、视觉）、决策、控制等多方面与人形机器人结合，形成感知、决策、控制闭环，提升机器人的智能水平。

未来人形机器人大模型的方向将会是感知-决策-控制一体化的端到端通用大模型，集合大规模数据集管理、云边端一体计算架构、多模态感知与环境建模等技术。

1 微软 ChatGPT

在机器人领域的应用主要体现在两个方面：自然语言交互和自动化决策。在自然语言方面，机器人可以通过 ChatGPT 来理解人类的自然语言指令，并根据指令进行相应的动作；在自动化决策方面，机器人可以通过 ChatGPT 来生成任务方案，根据任务要求做出相应的决策。

柏林工业大学和 Google Robotics 团队 PaLM-E

是最大的多模态视觉语言模型，在 PaLM 模型基础上，引入了具身化和多模态概念，实现了指导现实世界机器人完成相应任务的功能。

2 谷歌 RT-2

全球第一个控制机器人的视觉-语言-动作（Vision-Language-Action， VLA）模型，通过将 VLM 预训练与机器人数据相结合，能够端到端直接输出机器人的控制。

斯坦福大学李飞飞团队 VoxPoser

智能系统 VoxPose 可以从大模型 LLM 和视觉语言模型 VLM 中提取可行性和约束，以构建 3D 仿真环境中的值地图，供运动规划器使用，用于零样本地合成机器人操纵任务的轨迹，从而实现在真实世界中的零样本机器人操纵。

3 Meta 和 CMU 团队 RoboAgent

采用了大规模机器人数据集进行训练，考虑到机器人在现实世界中的训练和部署效率问题，Meta 将数据集限制到了 7500 个操作轨迹中，并基于此让 RoboAgent 实现了 12 种不同的复杂技能，包括烘焙、拾取物品、上茶、清洁厨房等任务，并能在 100 种未知场景中泛化应用。

4 英伟达 Eureka

该系统以 OpenAI 的 GPT-4 为基础，本质是一种由大模型驱动的算法生成工具，能训练实体机器人执行例如“转笔”、“开抽屉”、“拿剪刀”、“双手互传球”等多种复杂动作。

5 英伟达 GR00T

目标是成为人形机器人通用大模型，旨在让人形机器人理解自然语言文本、语音、视频，以模仿人类运动，并与现实世界互动。

6 阿里云机器人大模型

方案集成了通义千问、通义万相等基础模型及阿里云物联网平台，可赋予机器人知识库问答、工艺流程代码生成、机械臂轨迹规划、3D 目标检测和动态环境理解等全方位能力，不仅可以大幅降低机器人开发的门槛，还让机器人轻松完成灵活性更高的非标任务，推动机器人在更广泛的应用场景落地。

7 华为盘古大模型

“盘古”大模型具备强大的语义理解、动态规划、多模态信号理解等能力，将为人形机器人大模型的开发提供智能化决策基础。依托盘古大模型的数据处理能力，可建立丰富且高质量的人形机器人数据集，并且充分发挥盘古大模型的多模态能力，实现复杂任务场景下综合感知和任务分解，提升各类泛化场景下的具身智能操作水平。

大模型在机器人领域研究与应用案例汇总

智能机器人纯视觉与激光雷达方案比较

人形机器人四种环境感知传感器各项性能比较

全球主要人形机器人的控制解决方案汇总

人形机器人丝杠行业深度报告：核心传动精密部件，国产化未来可期，市场规模249.5亿元

人形机器人执行系统之灵巧手-空心杯电机

人形机器人执行系统之旋转执行器-减速器

人形机器人执行系统之线性执行器-行星滚柱丝杠

人形机器人整体构造及成本拆解：执行系统较为关键

人形机器人BOM拆解分析-三大核心部分

中国人形机器人研发团队-24支机器人团队介绍

工控&机器人系列深度-人形机器人空心杯电机：迎国产替代机遇

人形机器人擎天柱Optimus只申请外观设计专利（共 5 件）

服务机器人(迎宾、讲解、导诊...)