视觉-语言-动作模型是机器人在复杂环境下完成任务的重要基础。但当前训练方法存在一些关键问题,比如数据获取成本高、适应性差等。为了解决这些问题,研究团队开发了SimpleVLA-RL。该系统基于veRL框架,引入了交互式轨迹生成和并行模拟渲染机制。通过结合轨迹采样、结果奖励和探索增强的设计,有效提升了模型的性能。
SimpleVLA-RL解决了三个主要问题:减少对大量示范数据的依赖,提高数据使用效率;增强模型在不同环境下的适应能力;实现从仿真到现实的高效迁移,提升实际应用效果。
实验显示,该系统在多个标准测试中表现优异。例如,在单次演示的情况下,LIBERO任务的成功率从48.9%提升到了96.9%,而长期任务则从17.3%提升到91.7%。
在训练过程中,模型表现出自主探索的能力,并发现了一些新的操作方式,如“Pushcut”现象,即通过推动代替抓取来完成任务。这表明模型能够突破人类示范的限制,找到更优的解决方案。
目前主流的训练方式通常需要大量高质量的数据,而这往往需要复杂的实验设置和专业人员参与,导致成本过高。此外,模型在面对新任务或新环境时表现不佳,尤其在长时间或组合型任务中更为明显。
最近的研究表明,仅依靠最终结果的奖励也能显著提升模型的推理能力。这引发了对如何将强化学习应用于视觉-语言-动作模型的思考。然而,直接应用强化学习面临一些挑战,如人工设计奖励难以扩展,以及与物理环境交互效率低。
为应对这些挑战,研究团队推出了SimpleVLA-RL,这是一个针对视觉-语言-动作模型优化的端到端训练方案。其设计包括四个部分:交互式轨迹生成、结果奖励建模、探索增强以及简化后的训练目标。
在轨迹生成阶段,模型直接输出动作的概率分布,并通过随机采样生成多样化的路径。每一步执行后,环境返回新的状态,继续生成直到任务完成。
结果奖励方面,采用简单的二元反馈,成功记为1,失败记为0,并将这个奖励分配给整个过程的动作。这种方式避免了复杂奖励设计的问题,也减少了调参的工作量。
为了增强探索能力,团队调整了采样策略,扩大了奖励裁剪范围,并提高了采样温度,以鼓励更多样的行为。
最后,简化了训练目标,去除了不必要的正则项,让模型能够自由探索新行为。
SimpleVLA-RL的主要贡献包括构建高效的强化学习框架、提升性能、增强数据效率和泛化能力、支持真实环境部署,以及发现新的操作模式。
在多个基准测试中,SimpleVLA-RL的表现优于现有模型。例如,在LIBERO任务中,成功率从91.0%提升到99.1%,在RoboTwin1.0任务中,平均成功率从39.8%提升到70.4%。
在未见过的任务中,SimpleVLA-RL表现出更强的适应能力,而传统方法则容易出现遗忘现象。此外,在真实机器人上测试,SimpleVLA-RL也展示了更高的成功率。
在某些任务中,模型不再局限于模仿演示动作,而是找到了更高效的替代方案,如通过推动完成任务。这种现象被称为“Pushcut”,说明模型能够根据任务目标自主选择最优路径。