在实体环境里,双手就是带领我们认识这个世界的工具,我们用手来感觉、来操作、来探索,还用双手来吃饭喝水、穿衣打扮、赚钱谋生,以及跟他人建立关系。

而要是能在虚拟世界里用双手来处理事情,那就太好了。

普渡大学的一支研究团队希望通过在虚拟环境里诠释手部动作、采用深度学习技术的 DeepHand 系统来改变那件事。

他们结合深度感应摄影机和在 GPU 上训练过的卷积神经网络,翻译250万种手部姿势和轮廓结构。这项研究成果为在虚拟环境里能够利用灵巧的手部动作,同时跟 3D 立体虚拟物体进行互动的梦想迈进了一大步。

自然的操作界面

DeepHand 满足了普渡大学机械工程系 Donald W. Feddersen 教授 Karthik Ramani 长久以来的梦想。

Ramani 说:“我们在实体环境里是如此自然使用双手去做这么多事情,所以我一直想要设计开发出将人类双手当成使用者界面里一项重要元素的产品。运用手势就能聪明直觉地跟 3D 立体物件进行互动。”

Ramani 表示出现更廉价的深度感应摄影机,加大了辨识手势运作的机会,也提高了在人机界面里对更自然地使用双手的期望。

GPU 在这里的用处是加快了训练为 DeepHand 所打造出之卷积神经网络的速度。Ramani 跟 Ayan Sinha、Chiho Choi 这两名研究生研究员使用 NVIDIA GPU 来训练神经网络,Ramani 说训练速度比起使用 CPU 要快上两到三倍。

解决问题

尽管这个团队出现显著进展,眼前仍有许多有待克服的问题。部分手指和手掌常会挡住摄影机的视野,偶尔无法解释手部动作。手的多个关节和大量可能发生的动作,几乎就是没完没了。还有两只手有某些部分看起来极为相似,系统不时会难以辨识是在看着哪个部分。

Ramani 说:“凭眼力找出手的正确位置及所有关节的角度,不像将线串过很多个点那样简单,那个问题难多了。”

Ramani 很幸运,获得美国国家科学基金会通过旗下的新创公司 ZeroUI 所提供的资金,而这家新创公司的研发重点便是将手当成使用者界面(该公司用来创造手部控制机器人玩具的 Ziro 模块化建构套件,已获得部分人士的注意)。

重大计划

Ramani 的团队打算最终藉由 ZeroUI 的帮助来产量 DeepHand,只不过他说在开始开发扩增实境(AR)和虚拟实境(VR)应用项目前,还有待克服会干扰解读手部动作的“噪音”一事。

他说:“得为实体环境 AR 及 VR 用途打造坚固实用的手部模型。”他跟他的团队计划只先继续推动那件事。

今夏初在拉斯维加斯举行的 2016年 IEEE 计算机视觉与图形辨识大会上,该团队发表了这项研究报告