在整部人类发展史里,过去两年应该是产生数据资料量的最高潮,而为了以视觉化的方式来呈现,以及更深入理解这些数据背后所代表的意义,MapD 提出一项由 NVIDIA GPUs 加速运算的新方法。

在无需加上索引或进行优化的情况下,MapD 的数据库会聪明地在各 GPU 上分割、压缩和快取资料,将使用者查询数据库的速度提高100倍;搭配 MapD Immerse 分析前端工具时,系统可立即对拥有数十亿笔纪录的资料组,以视觉化的图形方式呈现深入的分析见解内容。

来自英国,拥有顾问、部落客和数据库迷多重身分的 Mark Litwintschik,日前使用去年底首次发布的一项海量资料组,测试了超过12种不同的数据库及组态设定。此一资料组涵括详尽的12亿笔五年间纽约市个人出租车、豪华礼宾车及 Uber 的行车路迹资料,包括完整的 GPS、交易类型、乘客人数及时间戳记。

Litwintschik 多数的前期工作是在采用 CPU 技术的系统上进行,而使用 NVIDIA GPU 来测试 MapD,则是将效能提高55倍。

Litwintschik 说:“我自己觉得未来商业情报报表的发展会采用 GPU 技术。这些测试标准搭配的绘图卡,是使用两代以前的旧架构,比起某些我见过的情况,包括大型集群 CPU 解决方案在内,它的查询时间快上55倍。”

Litwintschik 表示商业情报领域“的未来极为明亮”。其实 NVIDIA 与 MapD 早就携手合作协助多个产业里的企业在未出现延迟的情况下,筛选和以视觉化的方式呈现海量资料组的内容。


MapD 使用 NVIDIA GPUs,对 NYC 交通数据资料等这一类复杂的海量资料组进行实时分析。

Verizon 调校数据库以应付数据产生的数量和速度

在企业的营销、业务、网络及内容营运等各方面,讲到资料量和资料产生的速度,很少有产业能赢过电信业。无论是找出通话中断的原因、感应器资料、日志档案、客户流失、装置统计或资料中心绩效,资料川流不息地流入。实时见到资料的需求让事情变得更复杂,难以进行模式辨识及根本原因分析的作业。

Verizon 将 MapD 经 GPU 调校后的数据库用在监控电信网路内智能型手机的难题上,以评估多项量表内容。在使用 MapD 前,得花上数小时才能完成查询,所以 Verizon 只会偶尔进行这项作业;而在使用 MapD 后,只要几毫秒的时间便能完成相同的查询作业,并且立刻就会呈现出画面,使得 Verizon 能快速找出问题的根本原因,协助客户及公司的营运和后勤团队。

“数据库采用 GPU 真正的运算能力,可以说几乎立即就将资料投入给处理器。”Verizon 资深解决方案架构师 Abdul Subhan 说。

数十亿美元危若累卵之际

金融相关企业已投资数十亿美元在高速网络、 巨大的资料储存空间和交易演算模式等核心技术上,以求创造出竞争优势。在查询和视觉化数十亿笔纪录时,需要产生假说及测试,使用CPU 技术会出现延迟或等待的状况显然不适用。

NVIDIA 与 MapD 跟某避险基金客户合作发展出一个随着时间大幅成长,有着丰富内容的专属资料组,而该公司有效率对该资料组提问的能力却未与时俱进。以该基金规模而言,单笔交易出现些许延迟的情况,相当于损失数百万美元的机会成本。

该客户使用 MapD 的产品,便能在数毫秒的时间内查询,并以图形显示结果,如此一来即为该客户在信息方面成就出竞争优势。通过 MapD 采用 GPU 技术的资料探索平台,就能立即测试新的投资想法,为经理、交易员和分析师创造出更流畅且具创意的投资组合作业流程。

应付 JavaScript 领域的需求

每天在 Twitter、Facebook 和 Snapchat 上有数百万个图片和影片按赞而登上头条的纪录,机器和人都是在背后推动资料出现爆炸性成长的因素。客户活动、使用者、交易、应用程序、服务器、行动装置和网络这些不起眼的信息,会当成机器资料而累积起来。

这些高维度资料,加上惊人的产生数量和速度,使得采用 CPU 技术的处理方式不知所措。最多人使用的 JavaScript 套件管理工具公司 npm, Inc. 看上 NVIDIA 与 MapD 的卓越效能,而选择它们来解决数据库方面的难题。

Npm 拥有超过25万件可再次使用的程序码套件,每天全球有400万名开发人员使用,加总起来一个月的要求量超过200亿件。GPU 的平行处理能力和 MapD 经 GPU 调校后之数据库,使得 npm 能在几毫秒内便查询完毕,而过去则是要几分钟的时间,随时都能正确掌握 JavaScript 圈里的情势变化,成本只要效能不佳之解决方案的零头罢了。

npm 技术长 Laurie Voss 说:“一个月200亿笔查询内容,我们要求一套执行速度快如闪电、能应付临时性资料分析需求的工业级数据库。我们要求这个数据库有着出色性能和扩充性,能处理大型复杂的查询内容,而 MapD 正是我们要的。”

 
NVIDIA DGX-1 深度学习超级计算机。

DGX-1:效能方面的大跃进

电信、金融和科技产业的客户只是这股浪潮的开端,MapD 与 NVIDIA 密切合作开发新的装置:NVIDIA DGX-1。这具搭配八片Tesla P100 GPUs 和 128GB GPU 存储器的超级计算机,可提供相当于250具传统服务器的运算产出能力。

采用 GPU 技术运算速度更快、性能表现更优秀的解决方案,可加惠遍及零售、保险、制造、医疗等产业里的业者。