一支由数据分析供应商组成的团体今天在GPU技术大会上共同提出了GPU开源分析倡议(GOAI),旨在培育以GPU来进行数据科学和深度学习方面工作的社群。该团体还发布了一款基于Python的API,来用于处理相关问题。

Continuum Analytics、H2O.ai 以及 MapD 技术是GOAI的创始成员。GOAI是在加利福尼亚州圣荷西举行的NVidia年度GPU技术大会上对外公布的。这几家供应商表示,虽然每家都拥有很强大的框架,但缺乏通用的标准数据格式阻碍了各种应用之间的互通。

这几家供应商还表示,如果没有能力访问和处理GPU环境中的相同数据,那么它会减缓工作流程,增加延迟和GPU上的分析工作流程的复杂性。

该团体提出了一个新的数据标准来解决这个问题,称为GPU数据框架,该标准可用来增进GPU上所运行的各种进程之间的数据交换。目前有一款Python API已对外公布。

新的GPU数据框架API使得GPU上的端到端计算成为了可能,因此“避免了传输回CPU或复制内存中的数据,减少了人工智能工作负载中常见的高性能分析的计算时间和成本。”该团体在新闻稿中说。

公告还说道:

“MapD Core数据库的用户可以将SQL查询的结果输出到GPU数据框架中,然后可以由Continuum Analytics的Anaconda NumPy类型的Python API来进行操作,或者将其用作H2O机器学习算法套件的输入,而不需要额外的数据操作“。

早期测试显示,通过将数据保留在GPU中并避免数据往返于CPU的方式,使处理时间减少了一个数量级。

MapD Technologies首席执行官兼联合创始人、Datanami评选的 2017年度关注人物之一的Todd Mostak表示,尽管数据科学界正在快速的使用GPU进行机器学习和深度学习的工作,但仍需使用CPU来参与构造子集以及训练数据的预处理,这都会产生瓶颈。

他在公告中说:“GPU数据框架可以让从训练和可视化的摄入到预处理的一切都变得更容易,可以直接在GPU上进行。这种高效的数据交换将会促进性能的提高,推动更复杂的、基于GPU的应用程序开发。”

Continuum Analytics的联合创始人兼首席数据科学家Travis Oliphant,同样也是Datanami评选的 2017年度关注人物之一。他说这种方法将有益于使用GPU的Anaconda用户。

“利用NVIDIA的技术,Anaconda正在推动开源数据科学运动,帮助团队避免CPU和GPU之间的数据传输,并朝着更大的业务目标迈进。”他在新闻中说道。

H2O.ai首席执行官兼联合创始人Sri Ambati表示,他对GOAI推动真正多样化开源生态系统的潜力感到兴奋。他说:“GOAI对于数据开发者和研究人员参加运动而言是一种号召,这可用以加快分析速度和GPU在企业中的采用。”

共同加入GOAI的三个工具是三个额外的数据装备,其中有BlazingDB,一个扩展数据仓库装备,具有PB级数据集的专有文件格式; Graphistry,用于开发基于GPU的数据存储和视觉分析语言;还有Gunrock,由加州大学戴维斯分校John Owens主导的一款GPU开源高性能图形原语。

GOAI已经在github.com/gpuopenanalytics上发布了部分规格。

另有消息称,MapD也宣布,其数据库现已开放源码,与其两位GOAI联合创始人的代码状态相符。