自从NVIDIA在美国先后与奥迪、BMW、Tesla等高级房车大厂进行智能化无人驾驶自动导航系统之后,为汽车产业注入新的创新动力,在全球汽车产业掀起一波巨大的革命风潮,此举也撼动国内相关产业以及科研单位高度重视,并相继投入经费与资源,打造属于中国自主技术的智能无人驾驶系统。

由北京联合大学副校长鲍泓教授率领的智能车团队,于数年前便与北汽集团着手开发智能汽车,其“京龙一号”与“京龙二号”分别采用北汽集团的C70轿车与C30纯电动车两款为基础,进行智能化改良的产品,于2013年完成最基础的环境测试之后,在2014年11月国内智能无人驾驶汽车的障碍物检测、安全预警、障碍物绕行与超车等性能比赛中,综合分数分别获得第三、四名的殊荣。

当2015年进入城市道路智能驾驶的开发初期,由于众多摄像头、雷达、传感器导入庞大的数据量,在原有计算性平台上明显发现性能不足。经过一段时间的调研,发现NVIDIA Jetson TK1的拥有强大的计算能力与图形处理能力,并且相对低的功耗,非常适合车载计算系统应用,于是从三月份开始采购 NVIDIA Jetson TK1开发板,并着手进行软件与算法移植。

经过研发团队不到半年的努力,先将Canny和Hog两个针对行人和障碍物检测的算法进行移植到 Jetson TK1上并进行优化,结果得到比原本在Intel Core i7-3778平台高出1.5倍和2.3倍性能提升。同时以此基础,北京联合大学智能车参加2015年8月29日北京郑开大道智能车公开测试,仅用60分钟便完成全程32公里、26个路口的自主驾驶,成绩斐然。

 项目内容介绍

目前北京联合大学的两款智能车中,“京龙一号(C70)”搭载2个高清摄像头与4个雷达(1*64线 + 1*8线 + 1*1线 + 1*毫米波),“京龙二号(C30)”搭载2个高清摄像头与5个雷达(2*8线 + 2*4线 + 1*1线),再加上其他诸多的传感设备,要处理如此大量的实时数据,经过测算至少需要数百GFLOPS计算性能才足以担任信息处理平台的角色。

北京联合大学项目联系人梁军老师表示,在未发现NVIDIA Jetson TK1之前,研发团队一直为了找不到符合“高性能、低功耗”的合适硬件平台感到十分苦恼,因为汽车行驶速度与有限功耗的限制下,必须同时兼顾有足够高的计算性能来缩短反应时间,同时又要在很低的电力消耗下执行运行,坊间绝大部分的嵌入式计算设备明显存在性能不足、台式机系统又需要过高的功耗,实在左右为难。

后来发现NVIDIA TK1芯片之后,经过测算其性能能达到将近300GFLOPS,额定功耗为5W,并且具备足够的对应IO接口连接周边,而且对图像及雷达数据等智能车关键应用的处理,都具有计算密集和访存密集的程序特征,这些应用特征非常适合GPU计算平台细粒度大规模并行的特点。因此,我们选择GPU计算平台来提高智能车应用程序的性能,实现对信息数据的实时处理整体来说已经满足很大部分的需求,如此一来,研发团队便可省却硬件集成上的大量时间成本。

不过移植过程并非十分顺利。梁军老师表示,一开始由于研究人员对Ubuntu操作系统、CUDA并行编程模型以及接口驱动并不熟悉,所幸供货厂商建立的TK1技术社区内有许多技术高手给予足够的支持与协助,加上开发团队努力不懈的尝试,终于逐步克服一些开发上的难题。

此外,TK1默认主频的执行上出现不稳定状态,后来透过修改控制文件,将主频固定在最高的852MHz之后,在性能与稳定性上得到有效改善,这也是经过实际执行过程中获得的宝贵经验。

另外一点经验分享,就是关于“CUDA程序寄存器溢出”的问题。在独立GPU的开发过程中,如果寄存器使用过量,会溢出到Global Memory中,但程序还是能够正常运行。但是在TK1上,如果寄存器溢出,程序会直接“死掉”。这个问题最终通过重新设计实现方案解决,如减少每个线程处理的数据量、提高并行粒度等。

然而,与受限于PCIE数据传输限制的独立GPU最明显不同之处,TK1处理器实现CPU与GPU共享内存特性,大幅度降低数据传输延迟所造成的问题,这对于需要实时处理的应用系统来说,是件非常非常关键的特性,因为独立GPU虽然计算性能非常强(目前最高能超过 5000GFLOPS),但透过 PCIE 传输数据所造成的延迟,往往掩盖过计算性能所带来的红利,这是 Tegra 处理器非常适合用在实时计算的另一项特色。

 后续发展

目前距离真正实现智能无人驾驶仍有一段距离,例如国外高级房车以采用两块更高性能的 Tegra X1 处理器实现无人驾驶功能,配置在车上的摄像头、雷达、传感器数量都远高于现有的配置,表示数据计算量与性能需求也要高出一个量级,这也是我们十分期待 Jetson TX1 尽快引进国内的主要原因。

此外,对于 Tegra 应用开发方面,极需要供货商与NVIDIA原厂更大的技术指导,包括各类接口(如ISP)以及针对 Tegra 处理器的CUDA优化指导方针,能协助我们更快速开发优异的智能无人驾驶系统。【GW】