OCF的技术总监Laurence Horrocks-Barlow在《科学计算世界》的一个专栏中预测,到2020年,基于容器化,基于云和GPU的工作负载将在HPC环境中占据主导地位。
高性能计算(HPC)市场上出现了一些有趣的新动态,这些新动态将在未来几个月中变得更加突出。特别是,到2020年,基于容器化,云和GPU的工作负载将在HPC环境中占据主导地位。
处理器演进
AMD的新型第二代EPYC ROME处理器(CPU)在基准测试中显示出,与其他竞争对手的双插槽相比,单插槽配置的性能更好。事实证明,这种新的AMD CPU非常强大,能够支持GPU计算,能够利用新的内存技术,支持PCIe Gen 4.0并以64GB / s的速度显着增加带宽。
AMD已与云提供商AWS和Azure达成协议,将其CPU置于其云平台上,并促进将AMD CPU用于HPC。这一有趣的举动反映了我们许多客户现在正在计划他们的下一个HPC集群或超级计算机,以将AMD纳入其基础架构设计中,以更好地支持AI工作流。
AMD以前曾退出HPC市场一段时间,主要专注于基于消费者的芯片,但近几个月来情况发生了巨大变化。由于英特尔目前不支持那么多的PCI-E lanes,它使AMD在处理器市场上具有竞争优势。联想起步较晚,但我们将在2020年晚些时候看到AMD的新发展。
其他值得关注的新发展是Mellanox的ConnectX-6n,它是第一个提供200Gb / s吞吐量的适配器,可提供高性能Infiniband以支持更大的带宽能力。此外,最近发布的三星非易失性存储器Express(NVMe)Gen4 SSD具有显着更快的性能速度,是其Gen3 SSD的两倍。
云计算采用
在过去的一年里,我们看到了在高性能计算中使用云的巨大转变,特别是在存储方面。许多研究机构正在朝着“云优先”的政策努力,希望在使用云的过程中节约成本,而不是利用间接费用(如冷却、数据和集群管理以及认证要求)来扩展它们的数据中心。在云中使用HPC和减少本地计算基础设施的数量方面,有一个明显的进展。随着AMD与云服务AWS和Azure的协议,以及他们各自的技术实现,如Infiniband,进入这些HPC云场景,这将更有可能成为2020年大学的发展方向。
我不认为在不久的将来,云将完全取代大型本地HPC集群,但是对于工作负载可变的客户来说,内部的HPC集群可能会变得更小,并与公共云紧密结合,从而实现利用率峰值。此外,我们越来越多地看到在“边缘”情况下使用公共云提供商,比如测试新技术或为特定项目或事件旋转环境。随着对所涉及的技术和用户需求的进一步了解,大多数大学和研究机构至少正在考虑采取一种混合方法。
云存储
云中的HPC的一个主要缺点是将数据从云中拉出来的高成本,这是一些组织转向云的阻力的一个原因,这是可以理解的。
不过,NetApp和DDN都推出了针对公共云的“混合”产品,你可以将部分存储上传到公共云,对其进行处理,然后只下载更改后的内容。这意味着只对检索所需的新数据而不是不必要的数据收取费用。
就在一年前,每个存储供应商都需要一个云连接器,这样组织就可以将他们的数据转移到云中,并将其全部移回。这些存储供应商认识到,组织不希望将所有数据存储在云上,而只是将少量数据移进移出,这将避免数据检索的巨额支出,并在2020年推动云计算采用高性能计算。
容器化和存储发展
在并行文件系统BeeGFS上有一个大的推进,现在可以在开放源代码上使用,在HPC计算集群中看到一些非常积极的带宽结果。有些存储供应商现在正在考虑将BeeGFS封装起来,因此可以将它包含在存储系统的嵌入式设备上,以确保更快的部署和配置管理。
在虚拟化环境中,文件系统的容器化正变得越来越流行,值得注意的是,IBM正在研究它的IBM频谱级存储解决方案,以简化其IBM ESF产品的部署。
容器化允许您将应用程序或文件系统放在“包装器”中,因此它们变得非常灵活,能够将它们绑定到标准配置管理中。通过在实验室中将集群的组件设计为一个容器,它支持更快的部署、更轻松的管理和内部升级。
许多研究机构正在使用容器化来封装它们的科学应用程序和实验,因为它使研究人员能够使用整个HPC环境的所有库和实验应用程序。然后,研究人员可以在集群中多次复制实验(模拟100个节点作业),在这个容器环境中运行他们的实验,与主机操作系统或集群的管理员配置几乎没有依赖关系。
一旦实验完成,研究人员就可以对容器进行存档,然后可以方便地在不同的场合多次重新加载容器,从而使重新配置更加简单,数据检索更加经济有效。
安全
近几个月来,限制容器和分割内存以避免任何内存泄漏的能力无疑变得更加突出。一些提供商开始限制对同一系统的访问,通过一种完全加密的多租户方法,这种方法保护容器和虚拟机(vm)之间的部分内存,因此它们不能看到彼此的内存映射。
云计算和容器化的一个主要安全方面是,系统上的其他用户或租户可能开始查看内存映射和泄漏机密研究信息,例如使用非匿名数据的医学研究。市场上出现了新的安全技术,通过这些技术,您可以限制容器的范围,或者VM如何访问内存,这对于减少这种担忧大有帮助。
GPU
随着人工智能,数据挖掘和数据分析所使用的深度学习的兴起,GPU计算变得越来越重要。
NVIDIA对基于Arm的HPC系统的支持及其CUDA加速计算的结合,使HPC社区的规模进一步扩大。 在HPC环境中,ARM能够生产出低功耗CPU的能力具有不可思议的优势。
随着许多新技术的发展以及对云计算和容器化的积极采用,2020年将预示着高性能计算市场激动人心的时代。