让机器人适应全新环境始终是一项难题。尽管可以通过收集人类记录的真实数据进行训练,但这类数据往往稀缺且成本高昂。数字仿真虽高效且易扩展,但将其应用于实际环境时常效果欠佳。近期,一种更高效的解决方案浮出水面:一种融合生成式人工智能与物理模拟器的新系统,旨在构建更贴近现实的虚拟训练场地。
该系统结合生成式AI模型和物理模拟工具,为机器人营造高度仿真的虚拟训练环境。这种方法训练出的机器人在现实中的表现优于传统技术训练的机器人。研究人员借助名为LucidSim的系统训练了一台机器狗完成跑酷动作,如翻越障碍物和上下台阶,全程未依赖真实数据。这体现了生成式AI在指导机器人执行复杂任务上的潜力,并暗示未来或许能在虚拟环境中全面训练机器人。
LucidSim系统利用生成式AI模型生成视觉训练数据。研究团队先为ChatGPT设计了数千条提示,让它描述各种可能出现在现实世界中的场景,涵盖不同天气、时间与光线条件。这些描述被输入一套系统,将三维几何与物理数据整合到AI生成的画面中,形成一系列短视频,为机器人规划行动路径。这些信息帮助机器人识别物体的关键尺寸,比如箱子的高度或楼梯的宽度。
研究人员通过让一台带摄像头的四足机器人完成多项任务来验证LucidSim的效果,包括定位交通锥或足球、跨越障碍物及上下楼梯。结果表明,使用LucidSim的机器人表现显著优于传统模拟系统。在寻找交通锥的20次实验中,LucidSim实现100%的准确率,而传统系统仅达70%。同样,在寻找足球的测试中,LucidSim达到85%的成功率,而传统系统仅为35%。最后,机器人在所有10次楼梯攀爬任务中均顺利完成,而传统系统的成功率仅为一半。
麻省理工学院副教授Phillip Isola提到,若LucidSim能直接运用高级生成式视频模型而非现有语言、图像与物理模型的组合,未来的成果或将更加卓越。纽约大学博士生Mahi Shafiullah指出,研究团队采用生成式AI的方法是一次创新尝试,有望推动更多前沿研究。华为资深科学家Zafeirios Fountas则认为,完全基于AI生成情境从零开始训练机器人是一项重大突破,其意义不仅局限于机器人领域,还可延伸至更广的通用AI应用。
接下来的研究将尝试用完全合成的数据训练人形机器人。团队还计划利用LucidSim提升工厂与厨房机器人手臂的灵活性和物理感知能力。Isola相信,若能借助生成式AI强化模拟,创造出丰富多样的场景,进而训练出能在咖啡厅内自如操作的智能体,这将是令人兴奋的进步。
这一系统充分展现了生成式AI在机器人训练领域的巨大潜力,未来的研究将继续挖掘这项技术的价值,助力机器人在各类复杂环境中表现出色。