英伟达的机器人研究人员开发了一种基于深度学习的新系统,该系统允许机器人在其环境中感知家居物体,以获取物体并与之互动。通过这种技术,机器人能够对已知的家用物体进行简单的拾取操作,比如把一个物体交给一个人,或者从一个人的手中抓住一个物体。
这项研究基于英伟达研究人员之前的研究成果,允许机器人通过标准的RGB摄像机精确推断周围物体的位置。了解场景中物体的3D位置和方向(通常被称为6自由度(自由度))至关重要,因为它允许机器人操纵物体,即使这些物体每次不在同一个位置。
英伟达(NVIDIA)首席研究科学家斯坦•伯奇菲尔德(Stan Birchfield)表示:“我们希望机器人能够以安全和熟练的方式与环境互动。”他解释说:“通过我们的算法和一张图像,机器人可以推断出一个物体的三维姿态,从而抓住并操纵它。”
该算法比领先的方法表现得更加健壮,其目的是解决计算机视觉和机器人技术上的脱节问题,也就是说,目前大多数机器人不具备处理环境干扰所需的感知能力。这项工作很重要,因为这是计算机视觉领域的第一次,一种只在合成数据(由计算机生成)上训练的算法,能够打败在真实图像上训练的最先进的网络,在标准基准的几个对象上进行物体姿态估计。合成数据比真实数据具有优势,因为它可以为深层神经网络生成几乎无限数量的标记训练数据。

伯奇菲尔德解释说:“如今销售的大多数工业机器人缺乏感知能力,它们对周围的世界没有真正的感知能力。”“我们正在为下一代机器人奠定基础,我们离合作机器人的工作又近了一步。”

Example images from the domain randomized (left) and photorealistic (right) datasets used for training

通过在DGX站上使用NVIDIA Tesla V100 gpu,结合cudnn加速PyTorch深度学习框架,研究人员训练了一个深度神经网络,使用由NVIDIA为虚幻引擎开发的定制插件生成的合成数据。这个插件可以让其他研究人员公开使用。

“具体来说,我们使用非真实感领域随机(DR)数据和真实感数据的组合来利用两者的优势,”研究人员在论文中说。“这两种类型的数据相互补充,产生的结果比任何一种单独获得的结果都要好得多。”合成数据还有一个额外的优点,那就是它避免了对特定数据集分布的过度拟合,从而产生了一个对光照变化、相机变化和背景有很强鲁棒性的网络。

在NVIDIA TITAN X GPU上进行了推断。推理代码也可以公开使用。
“我们已经证明,一个只接受合成数据训练的网络,与接受真实数据训练的网络相比,能够获得最先进的性能,并且由此产生的姿态对于机器人操作来说具有足够的准确性。”
这项研究将在瑞士苏黎世举行的机器人学习会议上发表。
英伟达的团队由研究人员乔纳森·特伦布莱(Jonathan Tremblay)、唐图(Thang To)、巴拉库玛·桑达林加姆(Balakumar Sundaralingam)、于翔(Yu Xiang)、迪特尔·福克斯(Dieter Fox)和斯坦·伯奇菲尔德(Stan Birchfield)组成。