
斯坦福吴佳俊团队,给机器东说念主狡计了一套拼装宜家居品的视频教程! 具体来说,团队冷落了用于机器东说念主的大型多模态数据集IKEA Video Manuals,已入选 NeurIPS。 数据集涵盖了 6 大类 IKEA 居品,每种居品都包含竣工的 3D 模子、拼装评释书和实质拼装视频。 而且分辩精良,拆解出的安装子姿首多达 1000 多个。 作家先容,该数据集初度终结了拼装提醒在果然场景中的 4D 对皆,为筹商这一复杂问题提供了进攻基准。 知名科技博主、前微软计谋筹商者Robert Scobl

斯坦福吴佳俊团队,给机器东说念主狡计了一套拼装宜家居品的视频教程!
具体来说,团队冷落了用于机器东说念主的大型多模态数据集IKEA Video Manuals,已入选 NeurIPS。

数据集涵盖了 6 大类 IKEA 居品,每种居品都包含竣工的 3D 模子、拼装评释书和实质拼装视频。
而且分辩精良,拆解出的安装子姿首多达 1000 多个。

作家先容,该数据集初度终结了拼装提醒在果然场景中的 4D 对皆,为筹商这一复杂问题提供了进攻基准。
知名科技博主、前微软计谋筹商者Robert Scoble说,有了这个数据集,机器东说念主将不错学会我方拼装居品。

团队成员、斯坦福考查学者李曼玲(Manling Li)暗示,这是空间智能规模的一项进攻使命:
这项使命将拼装权术从 2D 鼓动到 3D 空间,通过相识底层视觉细节,处治了空间智能筹商中的一个主要瓶颈。

1120 个子姿首胪陈拼装流程
IKEA Video Manuals 数据联结,涵盖了 6 大类 36 种 IKEA 居品,节约单的凳子到复杂的柜子,呈现了不同难度的拼装任务。

每一款居品,都包括以下三种模态:
安装评释书,提供了任务的全体证据和重要姿首;
果然拼装视频,展示了防备的拼装流程;
3D 模子,界说了部件之间的精准空间运筹帷幄。
况兼这三种模态并非通俗地堆砌在一说念,作家通过对视频和操作姿首的拆解,将三种模态进行了精良的对皆。

举个例子,在这么一条对于长凳的数据当中,包含了其基本粗略、视频信息、重要帧信息,以及安装姿首。
从下图中不错看出,安装姿首当中有主要姿首和子姿首的分辩,还标注了对应的视频位置。

统共数据联结,共包含了 137 个手册姿首,凭证安装视频被细分为了 1120 个具体子姿首,捕捉了竣工的拼装流程。
况兼通过 6D Pose 追踪,每个部件的空间轨迹都被精准记载,最终在视频帧、居品拼装评释书和 3D 模子之间拓荒了密集的对应运筹帷幄。
时空信息精良标注
IKEA Video Manuals 数据集是在 IKEA-Manual 和 IKEA Assembly in the Wild(IAW)两个数据集的基础上拓荒的。
其中,IKEA-Manual 数据集提供了模子过甚对应评释书,IAW 则包含了大宗用户拼装宜家居品的视频片断。
这些视频来自 90 多个不同的环境,包括室表里场景、不同光照条款,果然反应了居品拼装的各类性。

与在试验室环境下齐集的数据比较,这些果然视频带来了更丰富的挑战:
部件时时被手或其他物体遮拦;
相似部件识别(如四条一模一样的桌子腿);
录像机频繁出动、变焦,带来参数想到的珍爱;
室表里场景、不同光照条款下的各类性。

为了得到高质料的标注,应付果然视频带来的挑战,筹商团队拓荒了一套可靠的标注系统:
识别并标注相机参数变化的重要帧,确保片断内的一致性;
联结 2D-3D 对应点和 RANSAC 算法进行相机参数想到;
通过多视角考证和时序拘谨保证标注质料。

当先,筹商者们当先界说了一套端倪化的安装流程形色框架,将统共安装流程分为姿首、子姿首和视频帧等多个层级。
作家当先从 IAW 数据联结索要每个手动姿首的视频片断,并将每个视频片断证据为更小的终止(子姿首)。
对于每个子姿首,作家以 1FPS 的速率采样视频帧,并在每个子姿首的第一帧中标注出居品部件。

为了在统共拼装视频中对居品部件进行追踪,作家还在采样帧中为 3D 部件疑望了 2D 图像分割掩码。
为了促进疑望流程,筹商团队开发了一个潜入补助 2D 和 3D 信息的 Web 界面,同期该界面还可基于 Segment Anything Model(SAM)模子进行交互式掩码疑望。

标注流程中,标注东说念主员会在 3D 模子上选中零件,然后在 2D 视频帧上提醒其轻便位置,并将其输入到 SAM 模子中以及时生成 2D 分割掩码。
为了处治 SAM 在索要具有相似纹理的部分之间或低光区域的规模方面的固有局限,作家还允许标注东说念主员使用画笔和橡皮擦用具进行手动弯曲。
此外,作家还要想到视频中的相机参数,为此筹商者们当先东说念主工符号出视频帧中可能出现相机提醒(如焦距变化、切换视角等)的位置,然后标注出视频帧和 3D 模子之间的 2D-3D 对应重要点。
临了,联结这两类标注信息,筹商者们使用 PnP (Perspective-n-Point)算法想到出每段视频的相机内参数,得到相机参数的运行想到后,期骗交互式用具来细化每个视频帧中零件的 6D 姿态。
空间模子智力评估
基于 IKEA Video Manuals 数据集,团队狡计了多个中枢任务来评估现时 AI 系统在相识和推各人具拼装,以及空间推理(spatial reasoning)方面的智力。
当先是基于 3D 模子的分割(Segmentation)与姿态想到 (Pose Estimation)。
此类任务输入 3D 模子和视频帧,要求 AI 准确分割出特定部件区域,并想到其在视频中的 6 解放度姿态。

△上:基于 3D 模子的分割,下:基于 3D 模子的姿态想到
试验测试了最新的分割模子(CNOS, SAM-6D)和姿态想到模子(MegaPose)。
分析发现,它们在以下场景推崇欠安:
遮拦问题:手部遮拦、近距离拍摄导致部分可见、遮拦引起的深度想到纰缪;
特征缺失:零落纹理的部件难以分割、对称部件的地点难以判断;
特等拍摄角度(如俯瞰)导致的圭臬误判。

△上:遮拦问题,左下:特征缺失,右下:特等角度
第二类任务是视频指标分割,作家对比测试了两个最新的视频追踪模子 SAM2 和 Cutie。
成果潜入,在果然拼装场景中,这些模子一样靠近着三大挑战。
一是相机的提醒,可能导致指标丢失。

二是难以区分外不雅相似的部件(如多个疏通的桌腿)。

临了,保捏长工夫追踪的准确度也存在一定难度。
第三类任务,是基于视频的模式拼装。
团队冷落了一个改进的拼装系统,包含重要帧检测、部件识别、姿态想到和迭代拼装四个姿首。
试验聘请两种缔造:
使用 GPT-4V 自动检测重要帧:成果不睬念念,Chamfer Distance 达 0.55,且 1/3 的测试视频未能完成拼装;
使用东说念主工标注的重要帧:由于姿态想到模子的局限性,最终 Chamfer Distance 仍达 0.33。

这些试验成果揭示了现时 AI 模子的两个重要局限:
视频相识智力不及:现时的视频模子对时序信息的分析仍然较弱,往往停留在单帧图像分析的层面;
空间推理受限:在果然场景的复杂条款下(如光照变化、视角更正、部件遮拦等),现存模子的空间推聪敏力仍显不及。
作家简介
本技俩第一作家,是斯坦福大学计较机科学硕士生刘雨浓(Yunong Liu)现在在斯坦福 SVL 试验室(Vision and Learning Lab),由吴佳俊栽培携带。

她本科毕业于爱丁堡大学电子与计较机科学专科(荣誉学位),曾在德克萨斯大学奥斯汀分校从事筹商实习。
斯坦福大学助理栽培、清华姚班学友吴佳俊,是本技俩的携带栽培。

另据论文信息潜入,斯坦福大学博士后筹商员刘蔚宇(Weiyu Liu),与吴佳俊具有同等孝敬。

此外,Salesforce AI Research 筹商主任 Juan Carlos Niebles,西北大学计较机科学系助理栽培、斯坦福考查学者李曼玲(Manling Li)等东说念主亦参与了此技俩。


其他作家情况如下:

技俩主页:
https://yunongliu1.github.io/ikea-video-manual/
论文地址:
https://arxiv.org/abs/2411.11409万博manbext体育官网app娱乐