2012年10月29日-31日,由中国计算机学会主办的 “2012年全国高性能计算学术年会”(HPC China 2012)在湖南省张家界阳光酒店召开。本届盛会围绕着高性能计算技术的研究进展与发展趋势、高性能计算的重大应用等主题展开,促进信息化与工业化的深度融合,为相关领域的学者提供交流合作、发布最前沿科研成果的平台,推动中国高性能计算的发展。

  31日,HPC China 2012大会进入最后一天的日程。上午的主会场上,国家超级计算济南中心常务副主任、高级工程师陈德训发表了主题为“神威蓝光系统及应用”的演讲。

  【图】国家超级计算济南中心常务副主任、高级工程师陈德训

  国家超级计算济南中心是科技部2010年底批准的全国四个千万亿次超级计算中心之一,由山东省科学院计算中心负责建设、管理和运营。机房建设从2011年3月开始,2011年8月完成机房基础加固、供电改造、机房装修、冷却工程、机房设备安装调试以及神威蓝光系统的安装与全系统加点。2011年9月完成系统联调,2011年10月中旬,完成Linpack测试,10月27日,在HPC China 2011大会上发布。

  陈德训介绍道,家超级计算济南中心设立了应用咨询委员会,邀请各个领域的专家做一些应用咨询。家超级计算济南中心的研发部门,主要是完成超算中心的科研活动,为个应用领域专家提供专业知识。包括四个领域的研发:高端应用研究,为了支持用户应用软件的移植和优化,我们在国产处理器和x86处理器上都进行了移植;信息安全应用,主要结合国产处理器,开发信息相关课题;CAD应用负责商业软件的支持;大规模数据处理等四个领域。陈德训表示,目前团队主要有37个人,今年还要招聘15个人。

  【图】中心组织架构

  神威蓝光介绍

  神威蓝光系统安装了8704个自主设计生产的申威1600CPU,主频为0.975-1.1GHz,峰值为1.07PFlops,效率74.37%,,性能功耗比为0.74Flops/W。可用存储2.15PB,包括在线存储和近线存储。系统支持的最大并行规模为单道课题13万MPI进程。

  【图】神威蓝光系统分布图,主机系统共11个机仓,9个计算机仓,2个网络机仓。系统网络采用胖树结构。链路单项持续带宽

  陈德训谈道,由于国产处理器对于一些商用软件不支持,增加了100TB的商用机群。下图是基于x86处理器的商用辅助集群的配置:

  【图】商用机群配置

  【图】神威蓝光系统架构

  用户通过国家网络或internet登陆节点上进行软件开发调试,把源代码或常用的数据放在在线存储上,对于不常用的数据可以放在近线存储上。

  编译器:国产资源和商用辅助资源的串行编译器和并行编译器是不一样的。

  主要部署软件:商用软件和科学计算软件跟其他超算中心差不多,如下图所示:

  神威蓝光万核应用

  陈德训表示,如果有可扩展性不错的课题,在理论上有突破万核的可能,而且有实际应用需求,国家超算济南中心非常欢迎这样的课题去济南中心开发、调试与优化。神威蓝光的申威处理器的可扩展性、能耗等方面非常适合万核应用的程序开发和调试,有专门的技术队伍支持。

  【图】神威蓝光万核应用成果

  陈德训还重点介绍了MASNUM并行海浪应用模式,MASNUM采用了MPI进程级的编程,从8192个核一直测试到13万个核,从右边图可以看出,从8192个核到13万核,有9倍多的加速,加速比还是很不错的。

  当然这也不是一帆风顺的,在测试到6万核的时候,初始化用了2个多小时,最后分析出来,变量分布的时候用了很多MPI的调用,后来就安排Cluster把数据合并之后一次性广播,并且用二叉树方式实现,另外在边界通信方面,核多了以后会出现问题,调整网络,让临近通信尽量集中在4096区域范围内。最后,经过这些改进,13万核测试的时候基本都在15分钟左右。

  【图】MASNUM并行海浪应用模式

  【图】万核课题优化体会