高性能计算(High Performance Computing,以下简称HPC)市场正在朝着使用异质计算系统和提高能效比的方向发展:GPU、DSP和ARM处理器同时运行,以实现用更少的能耗带来更高的Petaflop(1千万亿次浮点计算/秒)值。
  IDC预测,HPC服务器市场要实现在2017年达到150亿美元销售额的目标,每年的增速就必须要保持在7.3%左右。超级计算(Supercomputing)的应用范围非常广泛,包括汽车制造模拟、天气预报、分子生物学研究、地球物理学等,在这些领域中往往需要并行处理大量的数据、进行复杂的运算。最近经常被讨论的大数据分析,也会用到超级计算。
  继2010年的天河一号之后,2013年,中国凭借“天河二号”再次荣登世界最快的计算机Top 500榜单。这台由广东省国防科技大学团队制造的超级计算机系统,以峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次双精度浮点运算的优异性能位居榜首,成为全球最快超级计算机。
  对此,IBM德国HPC专家Klaus Gottschalk的观点是:“在超级计算领域,亚洲国家以及其它门槛国家正在迎头赶上。”欧洲计算速度最快的超级计算机是“JUQUEEN”,是位于荷兰弗里斯兰的于利希研究中心制造出来的。
图2:Klaus
  图2:Klaus Gottschalk, IBM德国的HPC专家 来源:www.it-business.de

Xeon和Xeon Phi
  2013年,超级计算ISC大会在莱比锡举行,今年共有约2400人参加了这次大会。本次大会讨论的问题之一就是:中国制造出的世界最快的超级计算机使用的是哪种处理器?讨论的结果是,天河二号使用的是32.000Xeon处理器以及48.000Xeon Phi芯片。由于目前在Top 500榜单里的计算机有80%使用的都是英特尔Xeon处理器和英特尔Xeon Phi芯片,所以这个结果并不出人意料。
  英特尔公司的Rajeeb Hazra说,Xeon Phi芯片比GPU加速器更节能。在本届大会上,英特尔介绍了其新一代的Xeon Phi产品。
  大部分人选择英特尔CPU的原因非常简单。来自慕尼黑大学莱布尼茨计算中心(Leibniz Rechenzentrum)的Arndt Bode教授说:“我们制造的超级计算机‘SuperMUC’使用的也是英特尔的Xeon处理器。我们中心每年大约要使用100个不同种类的应用程序,所以我们需要一个可以运行与英特尔x86兼容的应用程序系统。”
  Bode教授认为兼容是非常重要的,因为兼容可以省去处理不兼容端口的费用。
克服电力短缺#1:能源
 

图3:欧洲计算速度最快的超级计算机“JQUEEN”
  图3:欧洲计算速度最快的超级计算机“JQUEEN” 来源:www.it-business.de
  中国制造的天河二号使用的是英特尔CPU和额外的GPU处理器;国防科技大学的团队还研发了自己的Linux内核,并用自己开发的处理软件来管理300多万个计算核。使用GPU处理器是减少超级计算机能耗的一个方法。
  Klaus Gottschalk说:“计算速度为一千万亿次浮点计算每秒(Petaflop)的超级计算机每进行一次计算,就要消耗掉一兆瓦(Megawatt)的电量。天河二号消耗的电量是大约17.8兆瓦。如果下一代的超级计算机性能提高一千倍,达到一百万万亿次浮点计算每秒(Exaflop)的话,那么它每计算一次就要消耗掉一千兆瓦(Gigawatt)的电量—要支持这样一台超级计算机,我们只能给它建个发电站了。”
GPU的使用
  为了减少能耗,今年超级计算ISC大会上的超级计算机,使用的都是较为省电的处理器,即将GPU、ARM芯片以及DSP结合起来使用,Top 500榜单里的第二名,超级计算机“Titan”使用的就是Nvidia公司生产的Kepler-GPU。
  绿色Top 500榜单(即最节能的超级计算机榜单)上的第一名来自意大利,它每兆瓦可进行3.21Petaflop次运算。制造商Ncore在本次大会上展出的名为“Brown Dwarf Y-Class”的超级计算机以DSP和ARM为基础,有144个计算节点,计算速度可达70Teraflop(一万亿次浮点运算每秒),但是耗电量只有10千瓦。
克服电力短缺#2:软件
  惠普公司的Frank Baetke认为,使用惠普的Moonshot服务器可以降低耗电量。软件可以分别转移到使用Moonshot服务器模块(每个底盘可安装多达45个模块,每个模块都可以使用不同的CPU)的主处理器上。IBM的Klaus Gottschalk指出,适用于x86或者Power-Chip的软件转移费用较低。
  现在MPI(Message Passing Interface,消息传递接口)语言一般都会进行并行处理。MPI是并行计算、分布式计算机系统信息交换的标准,并用许多编程语言—如C/ C++或Java语言来实现。2012年推出的MPI-3,使得存储共享(Shared Memory)、远程存储访问(Remote Memory)等许多新功能成为可能。
图4:Michael
  图4:Michael Resch教授,斯图加特高性能计算中心以及Gauss超级计算中心的负责人 来源:www.it-business.de

  斯图加特高性能计算中心(客户包括戴姆勒和保时捷公司)的负责人Michael Resch教授认为,现在超级计算机的用户陷入了困境:“上百万计算核能够流畅使用的编程语言目前还不存在。”
新的编码工具
  他对超级计算机的性能测量的基准“LINPACK”也持保留意见:“虽然目前来看这个评判标准确实是最实用的,但其实它并不适用于所有的电脑。”
  Nvidia公司的GPU专家Sumit Gupta则不同意Resch教授的观点:“我们可以使用工具来让旧的软件实现并行处理,比如我们公司的OpenACC工具。”Nvidia公司成功建立起了一个使用“CUDA”编程语言的全球社区,并将Nvidias的GPU编程为加速器。Nvidia凭借Tesla、Tegra和Kepler三代GPU处理器在计算机、应用程序、游戏领域中崭露头角,2012年起在云服务和云服务器领域也有不错的表现。
克服电力短缺#3:互连(Interconnect)

图5:IBM-Blade
图5:IBM-Blade 来源:www.it-business.de

  为超级计算机做热水冷却也可以降低耗电量。研究者的下一个目标是改良计算机的结构(例如将一个超级计算机改装成一个装载英特尔Xeon处理器的主计算机和许多装载Xeon Phi芯片的计算机模块)和优化互连。
  CPU之间的互连也是要耗电的。惠普公司的Baetke指出,使用光导体不仅可以让CPU之间实现快速互连,而且很省电。
  Infiniband公司现在可以提供60GB/秒的连接速度;Telekom公司在本次大会上第一次展出了其提供400GB/秒远程连接(例如从德累斯顿到弗莱堡,从慕尼黑到加兴)速度的实力。Klaus Gottschalk认为,传统的铜电缆还有很大的发展潜力。
  为了在超级计算领域获得领先,许多制造商在今年的超级计算ISC大会上拿出了自己最得意的产品。富士通展出的是名为“Primergy”的超级计算机,成本不超过30000欧元。
  这台超级计算机搭载的是x86硬件和经过简化处理的软件,可实现HPC模块运算,配备了富士通的文件系统“FEFS”,存储容量为8000PB,处理速度为1TB每秒。目前,HPC套装已经上市,FEFS将于2013年7月底上市。但是这套产品的能效比方面还不清楚,富士通方面没有给出答案。 
(编译:工业和信息化部国际经济技术合作中心 李丹宇)