7月22日首届阿里云分享日×云栖大会北京峰会召开,吸引了海内外2000余名开发者、创业者及生态伙伴参与。

阿里云CTO章文嵩在分享日指出,随着DT时代的到临,高性能数据分析需求开始显现,云上将形成包括高性能计算在内的技术生态。

章文嵩透露,阿里巴巴内部早期上线了33个GPU线上应用,进行着1亿+张级别的图片训练,同时配备了2P FLOPS的GPU计算集群,结果在一周之内就被几乎全部占用,这是阿里云此前没预料到的。而当下在图片识别领域就出现了诸如face++ deepglint senstime linkface cogtu等众多初创公司,因此章文嵩判断,基于深度学习的图像,语音技术应用即将爆发。这些技术的爆发带来一个非常迫切的问题:高性能数据分析。

GPU高性能计算背后的新需求

为了更好阐述这一观点,章文嵩从多方面进行了剖析:

内部:去年阿里集团内部共上线了33个GPU应用,对应的图片训练已经到1亿+张。在阿里云上线2P FLOPS的GPU计算集群(未来规模还将翻番)之后,一周之内就被所有业务部门一抢而光。已经涵盖人脸识别、标签识别、质量控制、商品分类、风格预测、拍照购、OCR、语音识别、图象搜索、反黄等多个方面,为业务创造了巨大价值。

外部,基于深度学习、图形图象识别、语音技术的大规模爆发,业内迅速涌现出如Face++、格灵深瞳、Linkface、知图科技等10+创业公司。

在他看来,神经网络在80年代后期出现过一个低点。2000年前后,从浅层学习到深度学习的演变,将神经网络提高了几个数量级,对计算需求更高。尤其是近几年,2012年谷歌大脑用16000个CPU实现深度学习,为整个业界带来很好的启示。在互联网这富饶的土壤上,语音和图像的技术与应用的成熟,深度学习技术与业务的紧密结合,使得技术的投入和发展进入了良性循环。“我们可以看到,数据和计算成为爆发的基石。比如深度学习模型对数据依赖性非常高。过去解决问题是从模型算法着手,现在更多是获得高质量数据。数据已然决定了整个模型的训练效果,高质量的数据当然需要多多益善。这就带来了一个巨大挑战:获取、保存海量数据,并要大幅降低存储成本。要知道,即使是银行,14天后数据就会清除。另一方面,商业领域计算能力从未过剩。一张图片的特征提取要170G次浮点计算;120万张图片进行一次网络训练,需要318P次浮点运算;一个CPU要算上22天的计算量拿GPU来做,大概是18个小时。”

具体来看:

-数据能力。包括数据获取、数据存储、数据传输、数据加工和数据使用,正如原油、汽油和石油只是提炼品一样,挖掘和提炼能力越高,产出就越高。DT发展的必然阶段,就是从数据分析到高性能数据分析。要实现这一点,需要更高效能、更强大的计算能力。

-计算能力。比如谷歌大脑用了1000台服务器,每台6核,耗电是600KW,500万美金的成本投入。而斯坦福大学人工智能实验室重新做了一遍,只需要3台GPU服务器,耗电只有4KW,3.3万美元的投入。技术演进将带来巨大变革。在参数模型中,包含GPU,众核处理器充当内存,关键计算用Hybrid CPU—FPGA,在加上极致的软件性能优化,效能提升迅猛。“我们在一种模型上的优化,最多可以提升60%,而美国一家技术创业公司同样的优化,只能提升20%。”通过软硬一体的优化,使得物理机+加速器的能力能直接对外部输出,将是云上IaaS的第二种形态。这样的方式下,云上超算能力不会成为瓶颈。

-构建技术生态。企业不仅需要计算,还有更多配套服务。比如数据、信息的高速获取和分发需要极速CDN,数据和信息存储需要对象存储,互联网应用落地需要云服务器、负载均衡、云数据库,大数据分析和高性能数据分析需要大数据处理如ODPS和高性能计算,GPU集群对外输出(今年9月份天池大数据计算,会让参赛选手使用GPU集群)。

章文嵩总结道:“我们相信数据能力+计算能力+技术生态,可以实现用技术拓展商业边界的目标。阿里巴巴联合更多合作伙伴,开放出更多如同人脸识别、深度学习等人工智能新技术,和社会分享,帮助企业实现弯道超车。”