【论文自动阅读】Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations
2026/5/27 14:19:47网站建设项目流程
基于语言的动作表征弥合机器人控制中的尺度差异相关信息
快速了解部分
基础信息(英文):
题目:Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations
时间年月:December 2025
机构名:
Research Center for Social Computing and Interactive Robotics, Harbin Institute of Technology, Harbin, China
State Key Laboratory of Cognitive Intelligence, iFLYTEK Research, China
Suzhou Research Institute, Harbin Institute of Technology, Suzhou, China
3个英文关键词:Robotic Control, Language-Based Action Representations, Distribution Shifts
1句话通俗总结本文内容:This paper proposes a semantically grounded linguistic representation to normalize robotic actions, addressing distribution shifts caused by numerical variations across robotic platforms and tasks, and improves the generalization and transferability of robotic manipulation through a two-stage training strategy.
数据构建:每个操作轨迹关联任务指令(如“What action should the robot take to {instruction}?”),轨迹包含离散动作序列AiA_{i}Ai和对应视频帧观测序列OiO_{i}Oi,引入运动模态MiM_{i}Mi形成数据元组(Oij,pi,Mij,Aij)(O_{i}^{j}, p_{i}, M_{i}^{j}, A_{i}^{j})(Oij,pi,Mij,Aij)(j为轨迹内步骤,pip_{i}pi为任务指令)。
预训练阶段:基于Open X-Embodiment的7个子数据集(约12000条轨迹),让模型按表1数据格式,以自回归方式学习ϕh(m∣o,p)\phi_{h}(m | o, p)ϕh(m∣o,p)(根据观测o和指令p生成运动令牌m),捕捉通用运动语言关系。
微调阶段:在LIBERO和Bridge V2数据集上,按表2数据格式,让模型学习ϕ(a,m∣o,p)=ϕh(m∣o,p)ϕl(a∣o,p,m)\phi(a, m | o, p)=\phi_{h}(m | o, p) \phi_{l}(a | o, p, m)ϕ(a,m∣o,p)=ϕh(m∣o,p)ϕl(a∣o,p,m)(结合运动令牌m生成具体动作令牌a),实现细粒度动作预测。
基于前人的哪些方法
动作解码与模型架构基础:动作解码参考RT2(Brohan et al. 2023)和OpenVLA(Kim et al. 2024)的离散化动作空间设计,模型架构以OpenVLA为基础,采用SigLIP(Zhai et al. 2023)和DINO v2(Oquab et al. 2024)进行图像编码,LLM骨干网络使用Qwen2.5(Qwen et al. 2025)。
多模态数据处理思路:借鉴Open X-Embodiment(O’Neill et al. 2024)统一视觉、本体感觉、语言输入与动作轨迹的标准化格式,以及LLaVA 1.5的VLM监督微调数据构建方式,设计两阶段训练的数据输入格式。
运动判断逻辑改进:参考ECoT(Zawalski et al. 2024)的运动判断逻辑,修改规则确保机械臂处于运动过程中,同时针对其固定阈值和窗口的不足,提出自适应阈值和分层窗口改进方案。
课程学习理念应用:遵循Qi et al. 2024的课程学习原则,在预训练阶段先让模型学习较易的通用运动知识,降低后续学习和迁移难度。
Zawalski, M.; Chen, W.; Pertsch, K.; Mees, O.; Finn, C.; and Levine, S. 2024. Robotic control via embodied chain-of-thought reasoning. arXiv preprint arXiv:2407.08693.