懂调酒能遛狗 清华全球最大双臂机器人扩散大模型RDT 登顶热榜

机器之心报道

机器之心部

今天,世界见证了 RDT 大模型的诞生,它就像 “小脑” 一样负责控制机器人的运动。

无需人类背后操作,RDT 即可指挥机器人双臂并用,完美调出如晚霞般梦幻的鸡尾酒 Malibu Sunset。

和人类调酒师一样,首先,RDT 将冰块稳稳倒入高脚杯中,不撒不漏,一套动作行云流水。

倒完冰块后,RDT 先后倒入椰子酒、橙汁、菠萝汁,操作娴熟,顺序不乱,确保口味一致。

注入石榴汁,晚霞般绚烂的酒红色在高脚杯中徐徐晕染开来。

最后,RDT 发挥空间感,夹起一片柠檬,轻轻卡在有弧度的杯口上,漂亮!

同行看后纷纷表示:有了十亿参数的 RDT ,智能机器人时代不远矣!去酒吧点 RDT 调酒师,赛博朋克感瞬间拉满。

在领略了 RDT 的强大后,是时候揭开它的神秘面纱了 —— RDT 的全称是 Robotics Diffusion Transformer,是 全球最大 的针对 双臂机器人 操作任务的 扩散基础模型 ,由清华大学人工智能研究院 TSAIL 团队构建。

当前,机器人领域公认的卡脖子问题是 “不够智能”。许多模型需要人教几十遍才能完成单个任务,面对没教过的情况则 “束手无策”。

而 RDT 正是这个 “智能困境” 的破壁者之一。它为 ALOHA 硬件本体植入了 “小脑”,使其能摆脱人类的操控,自主完成没见过的任务。RDT 将 “小模型” 扩展为 “大模型”,从 “单臂” 变为 “双臂”,是目前运动控制水平最接近人类的机器人小脑之一。

更惊喜的是,清华团队已将 RDT 的代码、模型,甚至训练它的双臂数据集彻底开源。他们坚信,开源 RDT 能极大加速机器人研发和产业化进程。

值得注意的是,目前 RDT 在世界最大的开源模型平台 —— HuggingFace 上的机器人榜单「热度排名第一」。

在 RDT 模型的加持下,双臂机器人成功挑战 7 项高难度任务,平均成功率上比当前最好的模型还要惊人地 高出 56%

让我们一起来看看,有了 RDT,双臂机器人还能解锁哪些高阶特征吧。

效果展示

1. 灵巧操作:“机器人遛狗” 竟成现实

起猛了,发现机器人能遛机器狗了?

在 RDT 的指挥下,机器人能灵巧地握住长度不到 2cm 的迷你摇杆,控制机器狗走出完美直线。

而如果把 RDT 换成其他模型,就会导致机器狗会走弯路、甚至见墙就撞。

没办法,控制精度不足!

2. 指令遵循:善解人意的倒水大师

RDT 能充分理解并遵循人类的语言指令。

倒水大师 RDT,让倒 1/3 的水就倒 1/3 的水,让倒 2/3 就倒 2/3,简直分毫不差!

值得一提的是,RDT 从未见过 1/3 这个词,也就是说,没有人给 RDT 展示过 1/3 的水应该怎么倒。

RDT 完全是凭借自己的泛化性,准确地理解了 “1/3” 这个量词和现实世界中 1/3 水位高度之间的对应关系。

与之相对,其他模型会指挥机器人倒得过多或过少,甚至尴尬洒水。

3. 未见物体与场景:自信地与未知共舞

谁说人类才是唯一能适应环境变化的智能体?RDT 也能轻松做到。

清洗以前从没见过的杯子、在多个装饰完全不同的房间中端茶倒水...

变换任务对象和环境都难不倒它。

4. 少样本学习:一点就通的高材生

更厉害的是,RDT 有很强的领悟力,是机器人模型中的“学霸”。

教会 RDT 叠衣服仅需展示 1 遍,而其他模型要重复教几十遍才能勉强学会。

初识 RDT:Scaling Law 魅力时刻

相比其他机器人模型,为什么 RDT 能做到如此智能?相比同行最优水准领先多少?

三个 “最大” 是 RDT 实现智能飞跃的秘密:

解密 RDT:从问题与挑战讲起

在大多数情况,人们会在日常生活中使用双手。机器人如果能像人一样挥动双臂,显然更灵活,也更能帮助人类。

但是,目前的双臂机器人距离落地还有一段路要走,根本原因是双臂的人类展示数据匮乏,“巧妇难为无米之炊”,而且模型泛化能力不足,不能“举一反三”。

为了解决这个问题,一种通常的做法是,利用多种不同机器人的数据,训练一个可泛化的「大模型」。

但这又会带来两个新的挑战:

一是,在机器人领域,缺乏一个像 GPT 一样的通用、强大的「模型架构」。

它不仅需要能学会各种的动作模式(modality),还需要具备可扩展性(scalability)。换言之,扩大模型的参数量,它的性能也要跟着一起涨。

二是,在之前的研究中,尚没有一个公认的在多种机器人数据上训练的方案。

这主要是因为不同机器人的硬件结构和传感器不同,进而导致数据的格式五花八门,难以进行统一的处理。

在本文中,研究者通过提出创新型的多模态模型架构,以及统一的物理可解释动作空间,来解决这些挑战。

设计 RDT:双臂机器人操作的新架构

「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通过模仿人类的展示来学习各种各样的技能,比如擦桌子和倒水等。

然而,人类的动作模式千变万化,就连抓起一个方块都有好几种做法(见下图)。

为了能学会多样的动作模式,研究者采用扩散模型(diffusion model)来进行建模。

图 3 描绘了 RDT 的整体架构,接下来我们逐一进行介绍。

首先是多模态输入的编码。

对于一个具体的机器人任务,模型在收到人类发出的语言指令后,需要结合自己的视觉观察,来预测完成任务所需的机械臂动作(action)。

这里就涉及到了语言、图片和动作三种模态。

此外,不同模态包含的信息量不尽相同。

咱们人都喜欢看信息量大的图而不喜欢看信息量小的文字。其实模型也一样。

为了避免模型 “偷懒”,只看信息量大的模态,在训练中,研究者会以一定概率随机遮蔽(mask)各个模态。

接下来介绍具体的网络结构。

为了保证可扩展性,研究者选择 Transformer 作为骨干网络,并做出如下关键修改:

训练 RDT:预训练与微调相结合

为了在多种机器人数据上进行预训练,研究者需要对数据格式进行统一。

具体来说,研究者构建了一个统一的动作空间(如图 3 左侧所示)。

该空间的每个维度具有明确的物理含义,以保证模型能够从不同机器人数据中学习到共享的物理规律。

在有了统一数据格式后,研究者就能将所有不同类型的机器人数据汇聚在一起,形成了目前最大的数据集,其包含超过 100 万条展示。

正因为在如此大的数据集上进行预训练,RDT 获得了无与伦比的泛化性。

最后,研究者还采集了目前质量最高的双臂微调数据集,用来微调 RDT 以增强其双臂操作能力。

该数据集具有如下特点:

测试 RDT:泛化性与操作精度并举

该团队设计了 7 个挑战性任务,从不同维度评估 RDT 的泛化能力和操作精度。

对于清洗杯子的任务,需要双手协调和物体泛化性。

具体来说,机器人需要拿起未见过的杯子,用另一只手打开水龙头,清洗杯子,倒干净杯中的水,并关闭水龙头。

这个任务对于单臂机器人来说几乎无法完成。

对于遥控机器狗,需要双手协调和极高的操作精确性。

机器人需要用一只手抓住遥控器,并用另一只手推动遥杆控制机器狗向前。

这项任务比洗杯子的精度要求更高,因为迷你摇杆的长度不到 2cm,且稍有偏移机器狗就会 “走弯路”。

对于倒水任务,模型需要能泛化到未见过的环境与语言指令,并理解用户要求,倒水至特定水位。

而对于传递物体和叠裤子的任务,仅给少量展示(1 - 5 条),RDT 就需要学会一个全新的技能。

实验评估(结果见表 3)中,研究者主要回答以下问题:

Q: RDT 能否对未见的物体和场景实现零样本(Zero-Shot)泛化?并遵循未见过的自然语言指令?

A:可以。在洗杯子(Wash Cup)和倒水(Pour Water)任务中,RDT 对未见场景和物体仍能达到较高成功率,其表现与见过的情况相差不大。

在 Pour Water-L-1/3 和 Pour Water-R-2/3 任务中,RDT 精确地理解了应该用哪只手操作、倒多少水,并能够严格遵循指令,即便它从未见过类似 “三分之一” 或 “三分之二” 这样的词汇。

Q:RDT 能否仅通过少量展示就学会新的技能?

A:可以。在物品传递(Handover)和折叠短裤(Fold Shorts)任务中,对于两个与已知动作模式完全不同的全新技能,RDT 仅分别通过 1 和 5 条展示的训练就轻松掌握,而其他方法几乎无法成功。

Q:RDT 是否能够完成需要精细操作的任务?

A:可以。在遥控机器狗(Robot Dog)任务中,RDT 在推动操纵杆时准确控制了角度,而其他模型会导致机器狗发生偏离。

Q:扩散建模、大模型以及大数据是否有助于提升 RDT 的性能?

A:是的。如表 2 所示,研究人员对三者分别进行了消融实验,结果表明缺少任何一者都会带来极大的性能损失。

特别地,仅用双臂数据训练的 RDT (scratch) 在未见物体和场景上表现极差,这表明预训练中学会的知识对于泛化性至关重要。

关于

该工作有两位共同一作。一位是清华大学计算机系的二年级博士生刘松铭,主要研究方向是具身智能和 AI for Science,此前在 ICML 和 NeurIPS 等顶级会议发表多篇论文,曾获清华大学本科生特等奖学金。

另一位是清华大学计算机系的二年级博士生吴凌轩,目前主要研究方向是人工智能安全和具身智能,此前在 ICLR 发表过论文。

论文团队

该项目的团队是清华大学计算机系 TSAIL 课题组,团队在扩散模型的基础理论和关键技术方面有长期的积累,提出了首个扩散模型与 Transformer 融合的架构 U-ViT,联合研制了全球首个性能全面对标 Sora 的视频大模型 Vidu,部分成果获国际表示学习大会(ICLR 2022)杰出论文奖,被华为、OpenAI、苹果、Stable Diffusion 等国内外领军企业的文生图大模型采用。特别的,TSAIL 团队在国际上率先提出 “扩散策略 “概念,并长期进行 “扩散策略” 构建算法研究,在 ICLR/NeurIPS/ICML 等顶级国际会议上连续发表了多篇相关研究工作 [1-4],包括扩散策略模型动作重采样方法 SfBC,奖励函数引导采样算法 CEP,高效扩散策略梯度蒸馏算法 SRPO,扩散策略对齐算法 EDA 等。

参考文献

[1] Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su, and Jun Zhu. Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling. In International Conference on Learning Representations (ICLR), 2023.

[2] Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, and Jun Zhu. Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning. In International Conference on Machine Learning (ICML), 2023.

[3] Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, and Jun Zhu. Score regularized policy optimization through diffusion behavior. In International Conference on Learning Representations (ICLR), 2024.

[4] Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu. Aligning Diffusion Behavior with Q-function for Efficient Continuous Control. In Annual Conference on Neural Information Processing Systems (NeurIPS), 2024.

[5] Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song. Diffusion policy: Visuomotor policy learning via action diffusion. In Proceedings of Robotics: Science and Systems (RSS), 2023.

[6] Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22669–22679, 2023.

[7] Zipeng Fu, Tony Z Zhao, and Chelsea Finn. Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation. arXiv preprint arXiv:2401.02117, 2024.

[8] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.

[9] Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi Zhu, and Cewu Lu. Rh20t: A robotic>[10] Team, O. M., Ghosh, D., Walke, H., Pertsch, K., Black, K., Mees, O., ... & Levine, S. (2024). Octo: An open-source generalist robot policy. arXiv preprint arXiv:2405.12213.

[11] https://mp.weixin.qq.com/s/L-4oxWuiOht1d3Cx_cI8Yw

iPhone iOS 18开倒车 16系列更新完续航尿崩 大
秋冬季孩子吃什么可以增强抵抗力 看看这份指南→