波士顿动力与丰田研究所联合发布AI新进展,Atlas机器人向通用任务处理迈出关键一步

图灵汇官网

最近,美国机器人公司波士顿动力(Boston Dynamics)和日本丰田汽车旗下的丰田研究所(Toyota Research Institute, TRI)一起公布了机器人与人工智能研究的重要突破。两家机构联手,让波士顿动力的知名人形机器人Atlas用上了由大型行为模型(Large Behavior Models, LBMs)驱动的新一代AI系统。这个突破让Atlas不再只靠复杂的预先编写代码来执行任务,而是能通过观察人类演示直接学习新技能,朝着能处理多种任务的通用人形机器人走近了一大步。

波士顿动力与丰田研究所联合发布AI新进展,Atlas机器人向通用任务处理迈出关键一步

传统的机器人编程一直有个大难题:工程师得手动给机器人写好每种可能情况的指令和应对方案,这既费时间又费精力,而且编出来的动作很“死板”,只要实际环境和预设有点不一样,机器人可能就做不了任务了。丰田研究所负责大型行为模型的高级副总裁Russ Tedrake说,人形机器人的一大价值是能在人类现有的环境里直接做各种任务,但以前的编程方法根本没法扩展来应对这个挑战。新的大型行为模型就是为了解决这个根本问题。它用新方法给机器人赋能:通过人类演示快速学会新技能,而且随着模型能力变强,学新技能需要的人类演示会越来越少。

这次合作的核心是一种端到端的AI策略。研究团队把机器人的感知、决策和控制整合到一个神经网络里,改变了过去把走路、平衡、抓握这些功能分开控制的模式。这个统一的“大脑”能直接控制Atlas的全身,包括手脚,让它能协调做需要全身动的复杂任务,比如走路、蹲下、举东西、搬东西。

在官方发的一段演示视频里,Atlas面对一辆装着四足机器人Spot零件的推车,自己做了一连串复杂的连贯动作。它先稳稳走到推车旁,用灵活的手抓起Spot的机械腿,折好后转身准确放到旁边的货架上。然后从推车上拿其他零件(比如面板),拉开货架底层的储物箱,把零件放进去。清空推车后,它又转身处理身后一个装满乱零件的蓝色大桶,抓了几捧零件放到另一辆蓝色大推车里。整个过程有移动、抓取、折叠、放置、拉抽屉等动作,一气呵成,能看出模型能做长串任务。

更重要的是,这个模型让Atlas有了以前没有的适应能力。演示时,研究人员故意制造干扰,比如Atlas整理东西时突然合上箱盖,或者把零件弄到地上。以前这些情况可能让机器人程序中断或失败,但新的Atlas能聪明应对:它会试着打开合上的箱盖;零件掉了就弯腰捡起来。这种“纠错”能力不是来自预先写的应急代码,而是因为模型训练时学了包含类似干扰和恢复动作的演示数据,让机器人不再僵硬执行指令,开始有了在动态、难预测的环境里解决问题的初步能力。

这个能力的实现,靠的是研究团队为LBM设计的数据收集和训练流程。研究人员先用高度沉浸式的虚拟现实(VR)遥操作系统收集高质量训练数据。操作员戴VR设备,第一视角看机器人“看到”的画面,用控制器直接操控Atlas做任务。过程中系统会记录所有相关数据,包括机器人摄像头的RGB图像、描述自身姿态和关节位置的本体感觉数据,还有操作员的高级语言指令。

这些多类型数据被输入一个有4.5亿参数、基于扩散模型(Diffusion Transformer)的神经网络里训练。模型通过学人类演示,慢慢学会把语言指令和连贯的物理动作联系起来,自己完成任务。

波士顿动力与丰田研究所联合发布AI新进展,Atlas机器人向通用任务处理迈出关键一步

更重要的是,研究团队用了“通用性策略”的思路。他们没给每个具体任务单独训练模型,而是把不同任务、不同机器人平台(包括完整的Atlas、只有上半身的Atlas测试台,还有TRI的其他数据)的数据整合起来,训练一个能处理多种任务的通用模型。

这种方法大大提高了机器人的泛化能力和稳定性,让它遇到新情况时表现更好。这也意味着,策略的改进能方便地在不同任务和机器人形态间共享,加快整体研发。比如训练后,Atlas能处理各种物体,硬工具、软布料、重汽车轮胎,不用为每种物体重新编程。

这种数据驱动的学习方式还有个意外好处:执行效率提高。研究团队发现,训练好的模型部署时,动作速度能提到原来人类演示速度的1.5到2倍,不用重新训练。有时机器人的运行效率甚至能超过人类远程操作员的极限。

这个突破离不开波士顿动力和丰田研究所在基础设施上的大量投入。他们把物理硬件测试和高保真模拟环境结合,建了一个快速迭代的闭环系统。新的AI策略能在模拟环境里大规模测试验证,加快开发速度,也避免了在贵的物理样机上做高风险测试可能损坏机器。

当然,现在说通用人形机器人要来了还太早,从技术突破到大规模商用还有很多问题要解决,比如对LBM来说,怎么高效、低成本获取海量数据还是现在绕不开的大难题。

本文来源: 互联网 文章作者: 叶露珠
    下一篇

导读:梦晨 发自 凹非寺量子位 | 公众号 QbitAI英伟达直接把服务器级别的算力塞进了机器人体内。全新的机器人计算平台Jetson Thor正式发售,基于最新的Blackwell GPU架构,AI