作为一个城市现代化发展水平的重要标志,公共计算平台能够让更多的人力资源、资金、技术快速流动起来,在带来巨大的经济效益和社会效益的同时,推动着高新技术产业以及企业自主创新的发展,具有深远意义。

上海超级计算中心(SSC)由上海市政府投资建设,累计总投资规模5亿元人民币以上,坐落于上海市张江高科技园区。多年来,上海超级计算中心立足上海,面向全国,为来自工程科研院所和多所知名大学的超过350家用户,提供了随需应变的高性能计算资源、技术支持以及高级技术咨询服务,支持了一大批国家和地方政府的重大科学研究、工程和企业新产品研发,在汽车、航空、钢铁、核能、市政工程、新材料、生物制药、天文、物理、化学等多个领域取得了大批重大成果。

挑战:数百万亿次计算规模 作业调度系统面临挑战

上海超算中心目前拥有曙光4000A(2004年世界排名第十)和“魔方”(曙光5000A,2008年世界排名第十、亚洲第一)等多台超级计算机,同时配备丰富的科学计算和工程计算软件。

上海超算中心主机系统分三期工程进行建设,其中,二期工程部署了曙光4000A超级计算机系统,共有512个计算节点,每个节点4个CPU,于2004年底投入运行。三期工程部署了魔方(曙光5000A)超级计算机,于2009年6月投入运行,共有1500多台计算节点,2.5万多个核。在魔方(曙光5000A)上运行超过了40种以上的各类商用应用软件和上百种的科学研究程序。

上海超算中心高性能计算集群系统三期主机的处理能力为二期主机的20倍,CPU个数为二期主机的10倍以上,系统每天运行的作业数、访问用户数及作业类型等也成比例增长,因此系统运行的复杂度呈成倍增长态势,这对主机系统管理和运行的核心软件——作业调度系统提出了更高、更严的要求。

同时,上海超算中心高性能计算集群平台的应用环境非常复杂,其应用领域遍及基础科学研究(包括计算化学、高能物理、地球物理、天体物理、 新材料研究、生物医药、基因研究、人工智能等);社会公益事业(包括数值气象预报、环境保护、地震预报);工业与工程计算(包括航空航天、船舶和海洋工程、汽车设计、地质勘探、建筑工程、核电工程、电子与通讯、装备制造);数据处理(包括金融、政务、商务、证券、交通)等多个领域,这就要求高性能计算集群平台的作业调度系统必须能对各个应用软件具有非常良好的支持,不仅能支持各种工程计算应用,还能支持各种各样基础科学研究。这意味着作业调度系统要与各个商业应用软件具有良好的接口和后台支撑,同时还必须支持各种开源软件,确保各种应用软件在集群环境下的稳定应用。

解决方案:Platform LSF挺身而出 难题不再

自上海超算中心二期工程实施以来,Platform就积极参与到高性能计算集群系统建设中来,为上海超算中心的高性能计算集群系统的正常运作提供强有力的支持。

Platform为上海超算中心高性能计算集群系统三期工程提供的Platform 作业调度系统(Platform LSF HPC)。在访问网络层,提供用户使用高性能平台的通道,通过登录节点作为统一接口访问高性能服务,同时,将用户与高性能后台系统隔离,提高安全性和可管理性。在管理网络层,提供对高性能平台进行部署、监控、调度和管理通信平台,保证系统可控性和可管理性。在计算网络层,提供高性能应用、并行计算应用之间数据通信,减少延迟和增大带宽,保证高性能计算应用的高效率和高质量。在存储网络层,提供存储服务器与存储设备高IO吞吐和高流量通讯访问,保证系统对存储利用的高并发和大吞吐。当然,其他节点对存储访问不仅依赖存储网络,同时还将依赖IO服务器与其他服务器之间的管理网络或计算网络(取决于IO服务器使用管理网络还是计算网络提供IO服务)。

Platform作业调度系统(Platform LSF HPC)的核心是Platform LSF。LSF是业界领先的最为广泛使用的分布式批处理中间件,它可以用于提供PaaS服务, 并支持网格化SaaS。在电子设计、航空航天、汽车、生命科学、政府、教育、科研、石油等各个领域获得了广泛应用,包括德州仪器(TI)、AMD、通用汽车、戴姆勒克莱斯勒、波音、联合技术等著名公司均采用LSF对其高性能计算平台进行管理和调度。

LSF在可靠性、响应时间、可操作性、可维护性等方面有较大的优势,表现在:

-高可靠性。随着机群系统的逐步扩大,依赖于机群系统的人越来越多,机群系统的故障将导致数百、乃至数千分布世界各地的员工工作受到影响,甚至直接影响到产品的测试、验证乃至发布。LSF具有高可靠性,其机群系统的平均无故障时间大于99.95%,即一个季度,停机时间小于一个小时。LSF的高可靠性已经在TI,AMD,NVIDIA等超大规模机群的运营中得到证明。

-100%可信赖的作业调度和管理。LSF提供的透明远程执行机制以及通过JobStarter提供的作业运行环境自适应机制可以确保作业调度和运行的正确性。TI、AMD、NVIDIA、GM等作业调度系统运营表明,在不考虑用户因素和操作系统等其它因素的情况下,其作业调度系统确保作业运行的正确性为99.99%以上。

-高可扩展性。Platform LSF单一机群管理的CPU数已经向10,000 ~ 20,000等更多CPU方向展。目前在TI, AMD, NVIDIA等企业单个机群最大CPU数均超过计10000个,节点数在4、5000台以上。

-良好的可操作性,支持在线修改。Platform LSF支持在线修改,支持系统管理员根据用户需求的变化,动态地修改系统配置,不影响作业的运行和用户的使用。

-良好的可维护性。Platform LSF支持机群系统的在线升级和维护。系统管理员可以在不影响作业的运行和用户使用的情况下,替换新的系统服务程序,进行系统在线升级和维护。

效果:实现负载均衡 管理更便捷

Platform 作业调度系统很好地帮助上海超算解决了大型、复杂作业的调度,保证了整个集群的负载平衡,提高了作业运行效率,大大降低了作业运行的成本。表现在以下几个方面:

-保证了负载均衡,让每台机器都参与运算,提高了整个集群的使用率。作业提交后,可以很均衡的提交到集群中的上千个计算节点上,让上万个核都参与运算,而不是每次都是一部分机器参与运算。

-作业的运行时间大大降低,降低了运行成本,从而提高了系统的吞吐量。例如一个运行10小时的FLUENT的作业,利用LSF调度后,一般可以将时间缩短到8小时,甚至5小时,效率提高了20%~50%。

-管理方便。LSF已经将2000多台计算节点分三个逻辑分区进行了合理的管理,管理员可以很容易地对每个逻辑分区的每个计算节点进行实时查询和监控。

-操作方便。LSF已经集成了40多个应用软件,上海超算的客户可以很容易的提交他们的作业、数据的上传和下载,并对作业进行实时监控。

上海超算中心魏玉琪经理认为,Platform LSF是个很优秀的集群调度软件,LSF很好的帮助上海超算解决了大型、复杂作业的调度,保证了整个集群的负载平衡,让2万多个核都参与运算,提高了作业运行效率,大大降低了作业运行的成本。现在上海超算中心的高性能计算集群系统保持着满负荷运行,每天有上千个作业吞吐量,LSF能很好的将用户作业进行调度,并保证了作业运行的稳定性、安全性,而且查询也非常方便,能实时地对作业进行监控。Platform帮助上海超算中心将各种应用软件集成到了LSF中,方便了中心的用户提交作业。他表示,未来,上海超级计算中心将进一步提升技术能力和服务水平,协助更多的用户将先进计算能力转化为科研创新能力,打造国际一流的超级计算中心。