擀面皮包饺子,MIT、CMU等的研究员让机器人自己学会了

图灵汇官网

你是否能想象一台机器人能够揉面团、擀面皮和包饺子呢?对机器人而言,处理像衣物、面团这样柔软且无固定形态的材料一直是个难题。面团的形状千变万化,而这些变化往往难以通过数学公式准确描述。

此外,从面团中创造出新的形状通常需要多个步骤,并使用不同的工具。对于机器人来说,掌握一系列长步骤的任务尤为困难,因为这些任务通常需要通过反复尝试来学习,而尝试的过程中存在许多选择的可能性。

[attach]707193[/attach]

3月30日,麻省理工学院、卡内基梅隆大学和加州大学圣地亚哥分校的研究团队提出了一种更为有效的解决方案,以应对这类问题。他们开发了一个“两阶段学习框架”,命名为“DiffSkill”。在这个框架中,“老师”算法负责解决机器人完成任务所需的具体步骤,随后它会训练“学生”机器学习模型,使其学会在何时以及如何运用各种技能,例如使用擀面杖。

有了这些知识,系统就能推断出如何执行技能来完成整个任务。研究人员认为,DiffSkill能够在模拟环境中执行复杂的操作任务,如切割和揉面团,或从砧板周围收集面团,同时比其他机器学习方法表现得更好。

除了制作披萨和饺子之外,这种方法还可以应用于其他需要机器人操作可变形物体的场景,例如为老年人或运动障碍者提供喂食、洗澡或穿衣服务的护理机器人。

“这种方法更贴近人类的行动规划方式。当我们执行一个长期任务时,并不会详细记录每一个步骤。相反,我们会有一个更高层次的计划,它大致告诉我们在这个过程中需要实现哪些阶段以及一些中间目标,然后我们逐步执行它们。”MIT计算机科学与人工智能专业的研究生李云珠解释道。

具体来说,DiffSkill框架中的“老师”是一种轨迹优化算法,用于解决物体初始状态和目标位置相近的短期任务。该算法利用模拟器中的信息,学习面团在各个阶段的移动方式,并输出相应的轨迹。

接着,“学生”神经网络模仿“老师”的动作。它使用两个摄像头图像作为输入,一个显示当前面团的状态,另一个显示任务完成时的面团状态。神经网络生成一个高层次的计划,以确定如何将不同技能连接起来以达到目标。然后,它生成每个技能的特定轨迹,并将指令直接发送到工具上。

研究人员通过三种不同的模拟面团操作任务验证了这种技术的有效性。在第一个任务中,机器人使用抹刀将面团放到砧板上,然后用擀面杖将其压平。在第二个任务中,机器人使用抓手从台面上收集面团,将其放在抹刀上,再转移到砧板上。在第三个任务中,机器人用刀将一堆面团切成两半,然后用夹具将每块面团送到不同位置。

“DiffSkill的表现优于依赖强化学习的技术,后者依靠反复试验来学习任务。事实上,DiffSkill是唯一能够成功完成所有三个面团操作任务的方法。有趣的是,‘学生’神经网络甚至超越了‘老师’算法。”卡内基梅隆大学研究生林兴宇说。

林兴宇认为,这一框架为机器人获取新技能提供了一种新颖的方式,可以将这些技能串联起来,以应对更复杂的任务。这些任务超出了之前机器人系统的处理能力。

由于他们的方法专注于控制工具(如抹刀、刀、擀面杖等),因此可以应用于不同的机器人,但前提是这些机器人必须使用研究人员定义的特定工具。未来,他们计划将工具的形状纳入“学生”网络的推理中,以便将其应用于其他设备。

研究人员希望通过使用3D数据作为输入来提升DiffSkill的性能,而不是依赖难以从模拟传输到现实世界的2D图像。他们还希望使神经网络规划过程更加高效,并收集更多的训练数据,以增强DiffSkill对新情况的适应能力。从长远来看,他们希望将DiffSkill应用于更多样化的任务,包括布料操作。

这项研究由卡内基梅隆大学研究生林兴宇、加州大学圣地亚哥分校研究生黄志奥、麻省理工学院脑与认知科学系教授Joshua B. Tenenbaum、卡内基梅隆大学助理教授David Held,以及MIT-IBM Watson AI Lab的研究科学家Chuang Gan共同完成。该研究得到了美国国家科学基金会、LG电子、MIT-IBM Watson AI Lab、美国海军研究办公室和国防高级研究计划局的部分资助。

本文来源: 图灵汇 文章作者: 柯冬梅