MIT团队发布“可控场景生成”新方法,用AI为机器人构建无限逼真世界

图灵汇官网

过去三年里,像 ChatGPT 和 Claude 这类对话工具的使用量明显增加。它们能处理多种任务,比如写诗歌、检查代码错误,或者回答一些不常见的问题。这些 AI 的能力来源于互联网上的大量文本数据。但仅靠这些数据还不够,机器人要成为有用的助手,还需要实际操作的经验。

机器人需要学习如何在不同的环境中抓取、堆叠和摆放物品。训练数据可以看作是一系列操作视频,逐步展示每个动作。但真实机器人收集这些数据既费时间又难以重复。工程师尝试用 AI 生成模拟数据,但效果不佳。也有人手动创建数字环境,但这很麻烦。

麻省理工学院的研究人员和丰田研究院合作,开发了一种新方法,可以为机器人创建多样且真实的虚拟环境。这种方法叫做“可控场景生成”,能够制作厨房、客厅等场景,供工程师测试各种互动情况。系统使用了超过四千万个 3D 房间的模型,可以将现有物体布置到新的场景中,并调整细节,使其看起来更真实。

这个技术利用扩散模型来生成 3D 场景。扩散模型可以从随机噪声中生成图像,并逐渐变成用户想要的日常场景。研究人员通过这种方式填充场景中的元素,比如把空白画布变成一个摆满物品的厨房,再调整物体的位置,确保它们符合物理规则。

生成过程的关键是蒙特卡洛树搜索算法,它可以让模型生成多个可能的场景,并选择最合适的方案。这种算法曾帮助 AlphaGo 在围棋比赛中获胜。研究人员表示,这是首次将这种算法用于场景生成。

实验显示,MCTS 能在一个简单的餐厅场景中添加多达 34 个物品,远高于训练数据中的平均数量。系统还能通过强化学习来优化场景生成,让模型在试错中找到更好的结果。

用户可以通过描述直接告诉系统需要什么场景,比如“一个厨房,桌上有一个碗和四个苹果”。系统能准确实现这些指令,成功率很高。此外,系统还能根据指令改变场景布局,例如将苹果放在盘子里或把棋盘游戏放在架子上。

研究人员认为,这种方法可以生成大量适合机器人训练的场景。他们发现,不需要所有训练数据都与目标场景一致,只要引导得当,就能生成更高质量的场景。

这些场景成为测试平台,机器人可以在其中练习各种动作,比如把餐具放进容器里,或者把面包摆到盘子里。每次模拟都很自然,让人看到未来机器人的潜力。

虽然目前只是初步验证,但研究人员希望未来能用生成式 AI 创造更多新物体和场景,而不仅仅是复制现有内容。他们还计划加入可动部件,如可以打开的柜子,提高场景的互动性。

团队还想结合之前的研究项目,引入从网络图片中提取的物体和场景库。他们希望建立一个社区,共同创造大量数据,帮助机器人掌握更多技能。

专家认为,这项技术比以往的方法更好,因为它能生成更真实的场景,同时考虑三维空间的变化。这为机器人在现实世界中的应用提供了重要支持。

本文来源: 互联网 文章作者: 张金伟
    下一篇

导读:「IPO全观察」栏目聚焦首次公开募股公司,报道企业家创业经历与成功故事,剖析公司商业模式和经营业绩,并揭秘VC、CVC等各方资本力量对公司的投资加持。作者丨巴里编辑丨关雎图源丨珞石机器人小米、赛