缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

投稿
APP
微信扫一扫获取更多

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

robotinside

2025-09-26 15:16:53

视觉-语言-动作模型是机器人在复杂环境下完成任务的重要基础。但当前训练方法存在一些关键问题，比如数据获取成本高、适应性差等。为了解决这些问题，研究团队开发了SimpleVLA-RL。该系统基于veRL框架，引入了交互式轨迹生成和并行模拟渲染机制。通过结合轨迹采样、结果奖励和探索增强的设计，有效提升了模型的性能。

SimpleVLA-RL解决了三个主要问题：减少对大量示范数据的依赖，提高数据使用效率；增强模型在不同环境下的适应能力；实现从仿真到现实的高效迁移，提升实际应用效果。

实验显示，该系统在多个标准测试中表现优异。例如，在单次演示的情况下，LIBERO任务的成功率从48.9%提升到了96.9%，而长期任务则从17.3%提升到91.7%。

在训练过程中，模型表现出自主探索的能力，并发现了一些新的操作方式，如“Pushcut”现象，即通过推动代替抓取来完成任务。这表明模型能够突破人类示范的限制，找到更优的解决方案。

目前主流的训练方式通常需要大量高质量的数据，而这往往需要复杂的实验设置和专业人员参与，导致成本过高。此外，模型在面对新任务或新环境时表现不佳，尤其在长时间或组合型任务中更为明显。

最近的研究表明，仅依靠最终结果的奖励也能显著提升模型的推理能力。这引发了对如何将强化学习应用于视觉-语言-动作模型的思考。然而，直接应用强化学习面临一些挑战，如人工设计奖励难以扩展，以及与物理环境交互效率低。

为应对这些挑战，研究团队推出了SimpleVLA-RL，这是一个针对视觉-语言-动作模型优化的端到端训练方案。其设计包括四个部分：交互式轨迹生成、结果奖励建模、探索增强以及简化后的训练目标。

在轨迹生成阶段，模型直接输出动作的概率分布，并通过随机采样生成多样化的路径。每一步执行后，环境返回新的状态，继续生成直到任务完成。

结果奖励方面，采用简单的二元反馈，成功记为1，失败记为0，并将这个奖励分配给整个过程的动作。这种方式避免了复杂奖励设计的问题，也减少了调参的工作量。

为了增强探索能力，团队调整了采样策略，扩大了奖励裁剪范围，并提高了采样温度，以鼓励更多样的行为。

最后，简化了训练目标，去除了不必要的正则项，让模型能够自由探索新行为。

SimpleVLA-RL的主要贡献包括构建高效的强化学习框架、提升性能、增强数据效率和泛化能力、支持真实环境部署，以及发现新的操作模式。

在多个基准测试中，SimpleVLA-RL的表现优于现有模型。例如，在LIBERO任务中，成功率从91.0%提升到99.1%，在RoboTwin1.0任务中，平均成功率从39.8%提升到70.4%。

在未见过的任务中，SimpleVLA-RL表现出更强的适应能力，而传统方法则容易出现遗忘现象。此外，在真实机器人上测试，SimpleVLA-RL也展示了更高的成功率。

在某些任务中，模型不再局限于模仿演示动作，而是找到了更高效的替代方案，如通过推动完成任务。这种现象被称为“Pushcut”，说明模型能够根据任务目标自主选择最优路径。

本文来源：互联网文章作者： robotinside

24小时热文

: 拜耳成立一支创投联盟
图灵汇

: 啤酒五巨头格局洗牌，百威亚太丢了榜一
图灵汇

: 秦皇岛产投战新股权投资基金成立，出资额5亿元
图灵汇

: 中国新能源汽车加速出海，比亚迪欧洲市场份额超越特斯拉
图灵汇

: 岚图FREE+8月销量5239台，强势夺得中大型SUV华系销冠！
图灵汇

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

微信扫一扫：分享

微信扫一扫：分享

观察 | 数据困境与模型挑战并存，AI智能体与机器人如何破局