斯坦福大学的吴佳俊团队研发了一个针对机器人的大型多模态数据集——IKEA Video Manuals。这个数据集已经被纳入NeurIPS会议。它覆盖了6大类宜家家具,每种家具都配备了完整的3D模型、组装指南以及实际组装视频。
斯坦福大学的研究人员为机器人打造了一套视频教程,目的是教会机器人如何组装宜家家具。他们推出的数据集名为IKEA Video Manuals,包含了6大类宜家家具,每种家具都有详细的3D模型、组装说明书以及真实的组装视频。
这个数据集的一大亮点是其细致的划分,安装步骤总数超过了1000个。研究者指出,这是首个在真实环境中实现组装指令4D对齐的数据集,为解决这一难题提供了重要的参考标准。
知名科技评论员、前微软战略研究员Robert Scoble提到,借助这个数据集,机器人将具备自主组装家具的能力。团队成员李曼玲表示,这项工作将组装规划从二维提升到了三维空间,通过解析底层视觉细节,攻克了空间智能研究中的一个重要障碍。
数据集中包含6大类共36种宜家家具,从小巧的凳子到复杂的柜子,展现了各种难度的组装任务。每件家具都配有安装说明书、真实组装视频以及3D模型。这些元素并不是简单的叠加,而是经过精心匹配,保证视频与操作步骤的高度一致。
以长凳为例,数据示例中包含了产品概述、视频信息、关键帧以及安装步骤。安装步骤分为主要步骤和子步骤,并标明了对应的视频片段。在整个数据集中,共有137个手册步骤,细分为1120个具体子步骤,完整记录了组装流程。
IKEA Video Manuals数据集基于IKEA-Manual和IKEA Assembly in the Wild(IAW)两个数据集构建。这些真实视频带来了更多的挑战,比如部件遮挡、相似部件辨别、摄像机移动以及光线变化等。为了应对这些问题,研究团队开发了一套可靠的标注体系,保障标注的质量和统一性。
利用IKEA Video Manuals数据集,研究团队设定了多项核心任务,用来衡量现有AI系统在家具组装理解和空间推理上的表现。这些任务涵盖基于3D模型的分割与姿态估计、视频目标分割以及基于视频的形状组装。
实验表明,现有的AI模型在视频解读和空间推理方面仍有不足。例如,在处理遮挡情况、特征丢失以及特殊拍摄角度时,模型的表现不尽如人意。
该项目的主要作者是斯坦福大学计算机科学专业的研究生刘雨浓,目前他在斯坦福SVL实验室跟随吴佳俊教授学习。吴佳俊教授是斯坦福大学的助理教授,也是清华姚班的毕业生。此外,Salesforce AI Research研究主管Juan Carlos Niebles、西北大学计算机科学系助理教授李曼玲等人也参与了此次研究。
欲了解更多详情,请访问项目主页:https://yunongliu1.github.io/ikea-video-manual/。论文全文可在arXiv上查阅:https://arxiv.org/abs/2411.11409。