NVIDIA发布了其 GPU 加速深度学习软件的更新版本,这些软件将令深度学习训练的性能翻一番。

新软件将让数据科学家和研究人员能够通过更快的模型训练和更复杂的模型设计来创造更准确的神经网络,从而加速其深度学习项目和产品的开发工作。

NVIDIA DIGITS 深度学习 GPU 训练系统第 2 版 (DIGITS 2) 和 NVIDIA CUDA 深度神经网络库第 3 版 (cuDNN 3) 可提供大幅提升的性能和全新的功能。

对数据科学家来说,DIGITS 2 现在能够在多颗高性能 GPU 上实现神经网络训练的自动扩展。与单一 GPU 相比,这种扩展在图像分类方面能够令深度神经网络训练的速度翻一番。

对深度学习的研究人员来说,cuDNN 3 可优化 GPU 内存中的数据存储,从而能够训练更大、更复杂的神经网络。cuDNN 3 还能够提供高于 cuDNN 2 的性能,让研究人员在单一 GPU 上最高可令神经网络训练速度达到两倍。

全新的 cuDNN 3 库预计将集成到 Caffe、Minerva、Theano 以及 Torch 等深度学习框架的未来版本中,这些框架被广泛用于训练深度神经网络。

NVIDIA 加速计算副总裁 Ian Buck 表示: “高性能 GPU 是为大学与大型网络服务公司支撑深度学习研究与产品开发的基础性技术。我们正与数据科学家、框架开发者以及深度学习社区密切合作,以便运用最强大的 GPU 技术、突破目前的极限。”

  • DIGITS 2 – 凭借自动多 GPU 扩展最高可实现两倍训练速度

DIGITS 2 是首个一体式图形系统,它在图像分类方面可指导用户完成设计、训练以及验证深度神经网络的整个过程。

DIGITS 2 中全新的自动多 GPU 扩展功能通过在系统中的所有 GPU 上自动分配深度学习训练任务,从而能够最大限度地增加可用的 GPU 资源。利用 DIGITS 2,在四颗 NVIDIA Maxwell架构 的GPU 上,NVIDIA 的工程师令著名的 AlexNet 神经网络模型的训练速度达到了单一 GPU 的两倍以上。早期客户的初步成果呈现了更好的加速效果。

雅虎旗下 Flickr 网站的人工智能架构师 Simon Osindero 表示: “在自动加标签 (Auto-tagging) 这方面,在单一 NVIDIA GeForce GTX TITAN X 上训练我们的一个深度网络需要耗费大约 16 天时间,但是如果在四颗 TITAN X GPU 上利用全新的自动多 GPU 扩展功能,整个训练只需 5 天即可完成。这是一个巨大的进步,它让我们能够更快地看到结果,还让我们能够在模型方面进行更广泛地探索以便实现更高的精度。”

  • cuDNN3 – 更快地训练更大、更复杂的模型

cuDNN 是一款用于深度神经网络的 GPU 加速数学例程库,开发者可以将其集成到更高级的机器学习框架中。

cuDNN3 在 GPU 内存中新增了对 16 位浮点数据存储的支持,使可存储的数据量翻了一番,优化了内存带宽。凭借这一功能,cuDNN 3 让研究人员能够训练更大、更复杂的神经网络。

百度研究院高级研究员 Bryan Catanzaro 表示: “我们认为,NVIDIA 库中的 FP16 GPU 存储支持功能将让我们进一步扩展我们的模型,因为当我们把单一模型的训练任务扩展至多颗 GPU 时,这一功能将会增大我们硬件的有效内存容量并提升效率。这将会使得我们的模型精度进一步提升。”

至于在单 GPU 上训练神经网络,cuDNN 3 也能够实现大大高于 cuDNN 2 的性能。它让 NVIDIA 工程师在单一 NVIDIA GeForce GTX™ TITAN X GPU 上训练 AlexNet 模型时实现了两倍的速度。