在 SC18 发表的全新多节点容器、与 Singularity 容器的兼容性及 NGC-Ready 计划,让更多人能接触到资料科学、人工智能和 HPC。

这是一种良性循环。资料科学和高效能运算(HPC)领域使用 GPU 来加速处理工作的情况愈来愈普遍,促成科学领域出现更广泛的突破性发展,包括入围今年戈登贝尔(Gordon Bell)奖决赛的六组选手,就有五组使用 GPU。这些进步促进了思想共享,本周在美国德州达拉斯召开的 SC18 大会上,GPU 成为多场会议、演示活动及新品介绍的主角。

我们让使用者能藉由 NGC 容器登录服务简化软件部署作业来补足这一块,预先整合和优化的容器在 NVIDIA GPU 上将符合产业标准的软件进行最新一波的增强及性能改进。随着登录内容的增长(容器数量在去年成长了两倍),使用者有更多方法可以利用 GPU 运算的优点。

更多应用程序、新的多节点容器和 Singularity

NGC 容器登录服务现在提供了41项用于深度学习、HPC 和 HPC 视觉化的框架和应用程序(去年为18个)。近期增加的内容包括 CHROMA、Matlab、MILC、ParaView、RAPIDS 及 VMD。我们还增加了它们的功能,使它们更容易部署。

我们在 SC18 大会发表新的多节点 HPC 及视觉化容器,让超级计算机的用户可以在大规模丛集上进行运算。

大型部署活动通常会用到讯息传递界面(MPI)这项技术,跨越多个服务器来执行作业。不过有太多定义 HPC 系统的变量(象是排程器、网络堆栈、MPI 和各版本的驱动程序),要建立一个使用 MPI 的应用程序容器有其难度。

NGC 容器登录服务最早便推出五个支援多节点部署的容器,让这件事变得简单,使得在多个节点(各节点又有着多个GPU)上运行大量计算工具,是一件极为轻松的事。

今后可以在 Singularity 容器里使用 NGC 容器,更简化了部署工作。Singularity 是一种超级计算机设施广泛采用的容器技术。

 

顶尖超级计算中心部署的 NGC 容器

NGC 容器登录服务的用户来自多个产业和学界,从大型企业到个体研究人员,其中包括克莱门森大学和亚利桑那大学这两处美国的高等教育研究机构。

使用者一直请求克莱门森大学 Palmetto 丛集的研究人员支援同一应用程序的多个版本。安装、升级和维护不同版本,要用掉大量时间和资源,而维护不同版本会使得支援人员捉襟见肘,用户的工作效率也不佳。

克莱门森大学团队在其 Palmetto 系统上,成功对来自 NGC 容器登录服务的 GROMACS 和 TensorFlow 这一类 HPC 及深度学习容器完成测试。他们现在建议用户将 NGC 容器用于其研究项目上。容器还能在 Singularity 部署环境里运行,更容易在整个系统中提供支援。克莱门森大学的 Palmetto 用户在使用 NGC 容器之后,便能运行自己喜好的应用程序版本,又不会打断其他研究人员的工作,或是要求系统管理员进行部署。

而在亚利桑那大学,推出新版本的 TensorFlow 深度学习框架时,用户就会纷纷要求 Ocelote 丛集系统的管理员进行更新。在 HPC 系统上安装 TensorFlow 是件很麻烦的事,要花上几天的时间,人手不足的团队又无法拨出资源来处理,用户常对此感到不满。

亚利桑那大学首席 HPC 系统管理员 Chris Reidy 表示:「我们更新丛集环境的速度,无法快到追上深度学习工作流程的要求。我们花了重金购买 NVIDIA GPU,NGC 容器则是妥善利用了那些 GPU。我们对 NAMD 这类传统分子动力学的程序码、机器学习和深度学习等领域,都有着极高的兴趣,加上采用经过优化和全面测试的软件堆栈来构建 NGC 容器,让我们能快速进行研究。」