加州大学伯克利分校(University of California, Berkeley)的研究人员从人类如何通过触摸与物体互动中获得灵感,开发了一种基于深度学习的感知框架,可以通过触摸识别98多种不同的物体。据该团队称,这是第一个只使用大规模触摸的机器人与物体交互的项目。

科学家们在研究报告中说:“当我们看到一个柔软的玩具时,我们会想象手指碰到柔软的表面时会有什么感觉,当我们感觉到剪刀的边缘时,我们就能在脑海中描绘出它们的样子。”“在这项工作中,我们研究了机器人如何学习相似的多模态关联。我们将这个问题定义为一个跨模态实例识别问题:识别出触觉观察和视觉观察对应于同一个对象实例。”

 该团队使用高分辨率触摸感知、NVIDIA TITAN X和GeForce GTX 1080 gpu,以及cudn -accelerated TensorFlow深度学习框架,对3.3万多幅图像进行了卷积神经网络多模态关联训练和测试。

 与单一物体对应的触觉读数和物体图像的例子

研究人员说:“我们训练了一个卷积网络来获取安装在平行颚夹持器手指上的两个gelsight传感器的触觉读数,以及一个摄像头中物体的图像,并预测这些输入是否来自同一物体。”

 

研究人员说,GPU有助于确定抓取是否成功。

交叉模态实例识别模型的高级图。Resnet-50 CNN块用于对触觉读数和视觉观察进行编码。注意,两个触觉读数的resnet-50的重量是联系在一起的。所有模态的特征通过串联融合,并通过2个完全连接的层,然后输出读数匹配的概率。

该模型可用于确认对象图像是否与触觉读数对应,或通过触摸识别对象实例。

研究人员希望将他们的框架扩展到一天,帮助仓库中的机器人通过在货架上触摸来从产品图像中检索物品。家庭环境中的机器人也可以从难以到达的地方取回物体。