影像辨识系统的发展日渐精密,然而其复杂程度仍远不及人类头盖骨底下大脑的运作效率。

英伟达的 Jetson TX1 嵌入式运算模块日前在列为 IEEE 重启计算计划(Rebooting Computing initiative)之一、于德州奥斯汀市举行的低功耗影像辨识竞赛(Low Power Image Recognition Challenge)活动的两个竞赛组里皆获佳绩,企图拉近计算机与人脑之间的差距。

英伟达投入不少资源在 Jetson 的 GPU 运算架构功耗效率上。在游戏和专业设计方面,这意谓着在功耗分配有限的情况下可达到浮动帧率的目标;然而在计算机视觉方面,每瓦特效能使得无人机或机器人等自主操作的机械,可达到快速控制循环和近乎实时的回应能力。

NVIDIA 的 David Kirk 与陆永祥在普渡大学求学时,认为在功率分配的情况进行影像辨识,是一件值得挑战的事,而展开了低功耗影像辨识竞赛。陆永祥说头两年还是牛刀小试,只有一小群研究人员在进行。他打算日后扩大竞赛规模,包括提供更大的奖项。

打造智慧无人机、头戴式显示器和能辨识物体的手机等如此精密复杂的计算机视觉应用项目,必须考虑到功耗效率的因素。人类大脑辨识物体(还有进行其它更多作业)要消耗掉20瓦特的功率。相较之下,超级计算机、资料中心和工作站上所运行表现最佳的分类程序,得用掉数千瓦特。 

今年的冠军队伍使用运行最新版本 cuDNN 4.0 的 Jetson TX1,该队为第一组执行 Bing+ Fast-RCNN、为第三组 在 Caffe 内执行 Faster-RCNN。

冠军队伍计划主持人暨顾问的王颖说:“TX1 拥有英伟达对于行动装置要求的一切特点:高产出值、低功耗,还能自由选择精准模式。目前有许多以卷积神经网络(CNN)为基础的辨识架构,象是 fast-rcnn、yolo、ssd 等,都让英伟达能充份选择,挑出最适合用于此次竞赛和 TX1 硬件的架构。”

致胜策略:让 Jetson 的 CPU 和 GPU 忙于处理大量资料

LPIRC 2016 參賽隊伍與主辦方。

中国科学院的王颖教授表示致胜之道是平衡 CPU 跟 GPU 的工作量,随时保持在全力运算的情况下。该队使用 NVIDIA Tesla K40 GPU 加速器进行“设计控间搜索”,以判断在桌上型 GPU 和 Jetson TX1 嵌入式系统上要使用的最佳模型。

 

经过多次反覆演练,他们发现模型删除和奇异值分解可缩减其 CNN 模型的规模,他们也尝试使用 cuFFT 及 cuSparse 来优化管线,但找不到此类方法来提高速度。

这是非常聪明的作法,不过要是英伟达想打造比媲美人脑效率的影像辨识系统,研究团队还得多动动脑,此举也使得日后更值得关注这项竞赛。