当前位置: 首页 > news >正文

[PaperReading] RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE

目录
  • RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE
  • TL;DR
  • Method
    • instructions与images模态特征处理
    • TokenLearner
    • Data
  • Experiment
    • 在新任务上Zero-shot泛化能力
    • 仿真数据对于泛化性的提升
    • 跨本体数据的迁移能力
    • 数据量与数据丰富度对于效果与泛化性的影响
  • 效果可视化
  • 总结与思考
  • 相关链接

RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE

link
时间:22.12
单位:Google
相关领域:Robtics
被引次数:1387
项目主页:https://robotics-transformer1.github.io/

TL;DR

大规模预训练结合zero-shot与小规模Finetune已在NLP/CV任务上验证效果,本文主张机器人场景下通过丰富的任务无关的预训练也有可能做出通用机器人。本文针对不同数据量、不同模型尺寸以及不同丰富度的数据上进行了大量实验验证该结论。
image
image

Method

image

instructions与images模态特征处理

  • image: an ImageNet pretrained EfficientNet,每次同时输入6帧
  • instruction: 通过a pretrained Universal Sentence Encoder来抽取embedding特征
  • 特征融合:通过FiLM Layer将text特征融入视觉特征中
  • 输出action:每个自由度被划分为256bins
    • arm movement:x, y, z, roll, pitch, yaw, opening of the gripper
    • base movement: x, y, yaw
    • a discrete dimension to switch between three modes: controlling the arm, the base, or terminating the episode
FiLM Layer是如何将text特征融入视觉特征的? FiLM Layer的基本原理 FiLM Layer是一种特征级别的条件调节机制,最早由Perez等人在2018年提出。它的核心思想是通过对神经网络中间特征进行​​仿射变换​​(affine transformation)来实现条件调节。具体来说,FiLM层会为每个特征通道生成一个缩放因子(scale)和偏移量(shift),对原始特征进行线性变换: $$FiLM(x) = γ * x + β$$ 其中: - x是输入特征 - γ(scale)和β(shift)是由条件信息(如文本嵌入)生成的调制参数 - 在RT-1中,FiLM层被插入到预训练的EfficientNet-B3模型中,用于将语言指令的语义信息注入到视觉特征提取过程中。

TokenLearner

用来对token序列进行压缩提升推理速度,例如可以将81个visual tokens压缩为8个token,再输入一个19M的Decoder-only的Transformer中预测action tokens。

Data

人类采集的13W段示例轨迹,每段对应一条指令任务,总共700多种指令。

Experiment

在新任务上Zero-shot泛化能力

image

仿真数据对于泛化性的提升

作者实验证明增加仿真数据不影响真实数据表现,并能够提升仿真数据类别在真实世界的表现
image

跨本体数据的迁移能力

Table 5和Figure 6共同展示了RT-1模型在​​跨机器人数据融合​​方面的突破性能力。这项实验验证了RT-1能够吸收来自不同机器人平台(Kuka IIWA和Everyday Robots)的数据,并实现跨平台的技能迁移。核心发现包括:

  • ​​性能保持​​:加入Kuka数据后,原始任务性能仅下降2%(从92%到90%)
    ​- ​技能迁移​​:在类似Kuka设置的"Bin-picking"任务上,性能提升17%(从22%到39%)
    image

数据量与数据丰富度对于效果与泛化性的影响

数据丰富度对于效果影响更大一些
image

效果可视化

总结与思考

  1. 目前了解到的最早的通用机器人工作,实验扎实,构建数据也花费不少资源
  2. 没有使用非常大的模型尺寸,多模型融合方法也比较简单(FiLM),但做出基本效果

相关链接

https://zhuanlan.zhihu.com/p/12410988322
https://zhuanlan.zhihu.com/p/675317460

http://www.sczhlp.com/news/10671/

相关文章:

  • 【03】厦门立林科技——立林科技 嵌入式 校招笔试,题目记录及解析 - 指南
  • JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
  • 数组打印的全量显示设置
  • 8.11总结
  • 8.12总结
  • 2025.08.12 NK9
  • 带修主席树模板
  • 《烛之武退秦师》
  • Admin.NET站在巨人肩膀上的 .NET 通用权限开发框架
  • nebulagraph 查询IO下推总结
  • base_test中的task A,在用例中也写上一个task A,但是这个task A在base_test中调用,实际执行的是用例中的task A,还是base test中的task A
  • LeetCode 面试经典 150_数组/字符串_O(1)时间插入、删除和获取随机元素(12_380_C++_中等)(哈希表) - 教程
  • youwiki大佬的博文
  • 数字化转型别再堆工具了!这款项目管理软件才是破局关键
  • 20250812
  • 数据结构复习第一天(2025/8/12)
  • FWT小记
  • 数字孪生技术是如何在智慧园区领域稳步发展的?
  • 软工8.12
  • nim语言配置nimble路径
  • 4.7 浅拷贝和深拷贝(只针对可变类型:列表、字典、集合)
  • 监控、日志与运维瓶颈
  • 2025 化工材料PLM选型优先级:从国产适配到全球化协同的 TOP5 PLM厂商优选清单
  • Slack推出企业级AI搜索功能,整合全域知识库
  • 流程行业PLM是什么?化工材料/食品饮料/日化美妆等行业PLM选型指南
  • 璞公英公开课回顾 | 高三物理九月调考高频考点解析 高考物理备考策略干货大放送!
  • 国产PLM系统有哪些品牌?2025主流十大国产PLM系统大揭秘!
  • spaCy v3配置与项目系统解析
  • R语言中将行名改为第一列
  • 打印trans的小tips