目前大模型技术已从单纯的大语言模型(LLM)发展到图像-语言多模态模型(VLM)乃 至图像-语言-动作多模态模型(VLA),其中图像-语言-动作多模态模型(VLA)的推出,实 现了数据与处理任务的跃升。从文本到图像再到现实世界,大模型的数据模态逐渐丰富,数 据规模的数量级迅速增长,大模型的应用场景和价值量也成比例扩张。
在人形机器人领域,AI 大模型将会从感知(语音、视觉)、决策、控制等多方面与人形 机器人结合,形成感知、决策、控制闭环,提升机器人的智能水平。
未来人形机器人大模型的方向将会是感知-决策-控制一体化的端到端通用大模型,集合 大规模数据集管理、云边端一体计算架构、多模态感知与环境建模等技术。
1 微软 ChatGPT
在机器人领域的应用主要体现在两个方面:自然语言交互和自动化决 策。在自然语言方面,机器人可以通过 ChatGPT 来理解人类的自然语 言指令,并根据指令进行相应的动作;在自动化决策方面,机器人可以 通过 ChatGPT 来生成任务方案,根据任务要求做出相应的决策。
柏林工业大学和 Google Robotics 团队 PaLM-E
是最大的多模态视觉语言模型,在 PaLM 模型基础上,引入了具身化和 多模态概念,实现了指导现实世界机器人完成相应任务的功能。
2 谷歌 RT-2
全球第一个控制机器人的视觉-语言-动作(Vision-Language-Action, VLA)模型,通过将 VLM 预训练与机器人数据相结合,能够端到端直接 输出机器人的控制。
斯坦福大学李飞飞团队 VoxPoser
智能系统 VoxPose 可以从大模型 LLM 和视觉语言模型 VLM 中提取可行 性和约束,以构建 3D 仿真环境中的值地图,供运动规划器使用,用于 零样本地合成机器人操纵任务的轨迹,从而实现在真实世界中的零样 本机器人操纵。
3 Meta 和 CMU 团队 RoboAgent
采用了大规模机器人数据集进行训练,考虑到机器人在现实世界中的 训练和部署效率问题,Meta 将数据集限制到了 7500 个操作轨迹中,并 基于此让 RoboAgent 实现了 12 种不同的复杂技能,包括烘焙、拾取物 品、上茶、清洁厨房等任务,并能在 100 种未知场景中泛化应用。
4 英伟达 Eureka
该系统以 OpenAI 的 GPT-4 为基础,本质是一种由大模型驱动的算法生 成工具,能训练实体机器人执行例如“转笔”、“开抽屉”、“拿剪 刀”、“双手互传球”等多种复杂动作。
5 英伟达 GR00T
目标是成为人形机器人通用大模型,旨在让人形机器人理解自然语言文本、语音、视频,以模仿人类运动,并与现实世界互动。
6 阿里云机器人大模型
方案集成了通义千问、通义万相等基础模型及阿里云物联网平台,可赋予机器人知识库问答、工艺流程代码生成、机械臂轨迹规划、3D 目标 检测和动态环境理解等全方位能力,不仅可以大幅降低机器人开发的 门槛,还让机器人轻松完成灵活性更高的非标任务,推动机器人在更广 泛的应用场景落地。
7 华为盘古大模型
“盘古”大模型具备强大的语义理解、动态规划、多模态信号理解等能 力,将为人形机器人大模型的开发提供智能化决策基础。依托盘古大模 型的数据处理能力,可建立丰富且高质量的人形机器人数据集,并且充分发挥盘古大模型的多模态能力,实现复杂任务场景下综合感知和任 务分解,提升各类泛化场景下的具身智能操作水平。
智能服务机器人 |