NVIDIA 今日宣布为软件开发界提供多项效能更优秀、处理速度更快的工具,协助开发者解决深度学习日渐复杂的情况,这包括 NVIDIA SDK 一项重大更新内容,内有开发人员开发人工智能应用程序会用到的软件函数库和工具。

NVIDIA随着每次推出新一代的 GPU 框架,都不断改善 NVIDIA SDK。秉持这项传统,这些软件也能用于最新的 Volta 框架 GPU。

NVIDIA按照开发人员的需求发展各项工具、函数库和增强项目,并加入 CUDA 编程模型,协助开发人员加快建造下一代人工智能和高效能运算(HPC)应用程序的速度。

人工智能技术的进展,使得产业对 GPU 运算的兴趣出现呈现爆炸性的成长。

最新的 SDK 更新项目内有用于 GPU 加速应用程序的新功能和效能优化内容:

新的 CUDA 9 支援 Volta GPU,加快了 HPC 与深度学习应用程序的执行速度、将函数库的运算效能提升5倍,用于管理执行绪的新编程模型,还有除错及性能分析工具的更新项目。

新的 TensorRT 3 将深度学习的推论速度提升 3.5 倍,人工智能网络服务及嵌入式边界设备等终端使用者应用程序的开发者可因此而受惠。内建支援优化 Caffe 与 TensorFlow 模型,开发人员就能更快将完成训练的神经网络投入正式生产环境。

工程师和资料科学家可使用 Volta 对 Caffe2、Microsoft Cognitive Toolkit、MXNet、PyTorch 及 TensorFlow 等框架的优化内容,将训练深度学习神经网络的速度提升 2.5 倍。

以下详细介绍各软件更新内容,以及带给开发人员和终端使用者的优点:

CUDA

CUDA 是用于建造 GPU 加速应用程序最快速的软件开发平台。每次推出新一代的 GPU 都会一并提供 CUDA 重大更新内容,而在第9版里包括支援 Volta GPU、函数库重大更新内容、新的编程模型,以及除错和性能分析工具更新内容。

深入了解 CUDA 9

NVIDIA 深度学习软件开发套件

开发人员使用针对 Volta 优化的最新版深度学习软件开发套件(Deep Learning SDK),就能取得各项函数库和工具,确保从云端或资料中心到桌面、嵌入式边界设备的 NVIDIA 各平台上,无缝开发和部署深度神经网络。相较于 Pascal GPUs,在 Volta GPUs 上使用最新更新项目的深度学习框架,训练 CNNs 的速度快上 2.5 倍,训练 RNNs 的速度快上3倍,而推论速度快上 3.5 倍。

NVIDIA还与多个协力厂商及社群合作,更新 Caffe2、Microsoft Cognitive Toolkit、MXNet、PyTorch 及 TensorFlow 深度学习框架,以利用最新 Deep Learning SDK 和 Volta 的优点。

这项更新将为以下对象提升效能和带来新功能:

cuDNN

NVIDIA cuDNN 提供各大深度学习框架使用的高效能深度学习建构模块。

cuDNN 7 在 Volta 优化的 Caffe2 深度学习框架上训练 Microsoft ResNet50 神经网络,速度快上 2.5 倍。Apache MXNet 在训练 OpenNMT 语言翻译 LSTM RNNs 时,速度快上3倍。

NVIDIA 开发者计划成员七月时可免费下载 cuDNN 7。详情请见 cuDNN 网站

NCCL

深度学习框架依靠 NCCL 提供深度学习工作量多 GPU 缩放功能。NCCL 2 推出在多达八个GPU 加速服务器上的深度学习训练多节点缩放功能。训练神经网络所需的时间从数日减少到数小时,开发人员就能反覆进行这个过程,更快开发出产品。

HPC 应用程序和深度学习框架的开发人员可在七月时拿到 NCCL 2。NVIDIA 开发者计划成员可免费下载。详情请见 NCCL 网站

TensorRT

实时提供人工智能服务,对于深度学习推论产生出严苛的延迟时间要求。开发人员在拥有 NVIDIA TensorRT 3 之后,推论速度加快 3.5 倍 – 不到7毫秒的实时延迟性。

开发人员可优化在 TensorFlow 或 Caffe 深度学习框架里训练的模型,快速部署人工智能服务到运行 Linux、Microsoft Windows、BlackBerry QNX 或 Android 作业系统的平台。

NVIDIA 开发者计划成员七月可免费下载 TensorRT 3。详情请见 TensorRT 网站.

NVIDIA DIGITS

DIGITS 开始支援 TensorFlow 深度学习框架。工程师和资料科学家可在 DIGITS 里设计 TensorFlow 模型来提高生产力,并使用交互式工作流程实时管理资料集、训练和监控模型准确性。此更新项目也在 DIGITS Model Store 里提供三项全新预先训练的模型,分别是用于影像分类的 Oxford VGG-16 和 Microsoft ResNet50,还有用于物体侦测的 NVIDIA DetectNet,以减少训练时间和提高准确度。

七月将推出用于桌面和云端的 DIGITS 更新内容、TensorFlow 和新的模型,NVIDIA 开发者计划成员可免费下载。详情请见 DIGITS 网站

深度学习框架

NVIDIA 深度学习软件开发套件可加快广泛使用的 Caffe、Microsoft Cognitive Toolkit、TensorFlow、Theano 和 Torch 等深度学习框架,还有多项深度学习应用程序的执行速度。NVIDIA 与 Amazon、Facebook、Google、Microsoft、牛津大学等单位的顶尖深度学习框架维护员密切合作,以整合最新的 NVIDIA 深度学习软件开发套件函数库,立即发挥 Volta 的运算实力。

Caffe2

Caffe2 在其官方部落格上宣布与 NVIDIA 合作开发的框架更新项目,让 Volta 拥有16位元浮点(FP16)训练能力。

「NVIDIA在 Caffe2 上与 NVIDIA 密切合作,发挥 NVIDIA 即将推出的下一代 Volta 框架 Tesla V100 功能特色。Caffe2 很兴奋成为首批从头开始设计的框架,加入 NVIDIA Deep Learning SDK 函数库,即 NCCL 和 cuDNN,以充分发挥 Volta 框架的长处。」

MXNet

Amazon 宣布与 NVIDIA 合作,将高效能深度学习用在 AWS 上,并在公告里提到双方合作让 Volta 支援 MXNet。

「AWS 的工程和研究团队与 NVIDIA 合作,在 Apache MXNet 加入预先优化的神经机器翻译系统(NMT)算法,让开发人员能在 Volta 框架平台以最快的速度进行训练。」Amazon 人工智能部门产品管理经理 Joseph Spisak 如此写道。

TensorFlow

Google 在其开发者部落格上分享最新的DGX-1 TensorFlow 测试基准结果:

「NVIDIA要感谢 NVIDIA 分享 DGX-1 测试基准结果和技术方面的协助。NVIDIA引颈期盼 NVIDIA 即将推出的 Volta 框架,并且跟 NVIDIA 密切合作以优化 TensorFlow 的效能,并且扩大对 FP16 的支援程度。」

NVIDIA 与 Microsoft 密切合作优化 Microsoft Cognitive Toolkit;也跟 Facebook AI Research(FAIR)实验室合作,在 Volta 上优化 PyTorch。

NVIDIA GPU 云端深度学习堆栈

NVIDIA还宣布了针对深度学习优化的 NVIDIA GPU 云端(NGC)GPU 加速云端平台。

NGC 的使用对象为不想组装和维护最新深度学习软件和 GPU 的深度学习应用程序开发人员。NVIDIA使用最新深度学习框架、NVIDIA 深度学习软件开发套件和 CUDA,提出在 PC、DGX 和云端运行的 NGC 云端深度学习堆栈(Cloud Deep Learning Stack)这项完整开发环境。完全由 NVIDIA 管理堆栈,开发人员和资料科学家可以从 PC 上的单一 GPU 开始动手,再逐步加入云端里的额外运算资源。