ORNL的Coury Turczyn讲述了诸如Titan之类的高端超级计算机在退役后会发生什么的不为人知的故事。
 
泰坦超级计算机
当一台过时的超级计算机被更新,更快的机器取代时,会发生什么?
经过7年忠实服务,Cray XK7 Titan超级计算机于8月1日最终退役时,它已成功为全球科学家完成了280万个工作。研究人员通过美国能源部的橡树岭国家实验室(ORNL)的橡树岭领导力计算设施(OLCF)进行仿真,研究人员利用Titan的并行计算能力在建模从超新星到内在无序蛋白质的一切方面取得了新进展。
对于许多在Titan上工作的科学家和OLCF支持人员来说,这是一个悲伤的日子。
当我们关闭一天时(当它呼出最后一口气而所有风扇都掉下来时),我们在房间里发生了一件事情。”国家计算科学中心数据中心经理Paul Abston说。 “房间里有人在情感上与机器联系在一起。自2012年以来,他们一直过着这样的生活:维护Titan,在Titan上进行工作,为Titan上来自全国各地的科学用户提供便利。”
尽管其27 petaflop的性能曾一度被评为世界最快,但Titan还是不得不为OLCF即将推出的百亿分之一百亿美元的亿万富翁机器Frontier让路。该机器有望在2021年上线后速度提高50倍。
但是泰坦的最终命运是什么?
值得庆幸的是,其中没有去垃圾填埋场。取而代之的是,Titan小心翼翼地移走,运往全国各地,成为世界上最大的IT资产转换公司之一,并按照国际责任回收(R2)标准进行拆解以进行回收。这项艰巨的任务需要ORNL,Cray(惠普企业公司)和Regency Technologies进行认真的计划和执行。
 
OLCF工作人员于2019年8月2日告别Titan超级计算机。图片来源:Carlos Jones / ORNL
 
搬迁日
移除占地9,000平方英尺的200机柜超级计算机的第一步是什么?拔掉
第二步:找出如何最好地抽空用于冷却Titan的10,000磅以上的R134a制冷剂。
对于这项耗时3天和50多个存储筒的特定任务,雇用了外部供应商。否则,包装Titan前往Regency的回收设施的整个工作都属于制造商Cray。通过其回收计划,Cray回收了退役的超级计算机。当收到Cray系统即将淘汰的通知时,Cray的现场工程师与威斯康星州奇佩瓦福尔斯的现场规划工程师合作,制定了拆除项目计划。一旦计划了清除,Cray就会派遣一个团队来拆卸系统,以保护环境和数据安全。
像处理任何电子产品一样,回收都是负责任的事情。”负责回收计划的Cray物流高级经理Craig Webb说。 “回收利用的环境和经济价值已经取代了在大铁矿时代更为普遍的'老派'销毁道路。追溯到Cray的历史,我们在印度有一个客户将系统埋在地下。”
幸运的是,在卸载Titan的过程中不需要埋葬任何组件。泰坦的冷却液完全排空后,下一步就是切断超级计算机与建筑物本身的许多连接。电气基础设施是第一个使用,以确保系统可以安全地工作。然后,所有机械管道都被锁定以避免突然的瀑布-除R134a外,Titan还通过管道输送到热交换器的冷却水保持冷却。接下来,将地板下的光纤束和Cat 6电缆束切断。
老实说,当您考虑土卫六所做的事情时,将其拆解并不像您想象的那么强烈,只是螺母,螺栓,电缆和插头。
接下来,取下机柜顶部的热交换器(或“大礼帽”),以使机柜更容易从门口滚动。然后开始了艰苦的工作:将每个完整的柜子搬到装卸码头,然后将其放在托盘上进行运输。在23天的过程中,八名Cray员工向140个托盘上拖运了价值430,000磅的Titan零件(及相关基础设施),两个橇板装有80个Gaylord包装箱,四个修剪板箱。最后,将这些相当大的土卫六碎片装进15个半卡车中,进行了将近1000英里的旅程。
 
分解
Titan的下一站是Regency在达拉斯的工厂,Cray使用该工厂处理其所有国内硬件回收。在这里,大型系统的组件被减少为可回收的零碎零件。
Regency总部位于俄亥俄州斯托(Stow),在全国范围内拥有八家工厂(总面积达100万平方英尺),专门从事“ IT资产处置”,也就是说,它从事的工作是将电子设备和系统分解为基本部件回收。 Regency的高性能计算业务开发人员Jim Anglum表示,这家拥有21年历史的公司使用机密的专有流程和工具来完成这项工作。 Regency遵循R2:2013认证,遵循非营利组织“可持续电子回收国际”建立的行业最佳实践,“致力于负责任地重用,维修和回收电子产品。”
泰坦的机柜及其内部组件被手工拆开后,将按照商品对所得到的零件进行分类:金属,塑料,印刷电路组件,内存等。每种材料的下一步加工基于其成分-钢,铝,铜,或钣金去了下游金属处理器。回收塑料零件。复杂的零件(例如印刷电路板,CPU和GPU)被专用机器切碎以隔离其贵金属;黄金和铂金卖给了炼油厂,但利润微薄。
出售的唯一可重复使用的组件是内存。”韦伯说。 “ AMD CPU没有转售市场价值,而NVIDIA GPU的定制包装妨碍了轻松转售-此外,拆除组装件以隔离GPU的人工成本效益不佳。但是,我们确实将一些GPU发送到了最后一个带有GPU的大型XE6系统上,以防万一,以备不时之需。
尽管Cray和Regency在回收旧超级计算机方面积累了相当多的经验,但Titan是他们迄今为止最大的努力。
“泰坦是个特例。我不相信我们以前已经回收了像泰坦这样大的系统。”韦伯说。 “也就是说,我们之前已经做过大型系统,这实际上只是一个扩展活动。这种规模的处理系统与处理服务器或PC没什么不同,只是更大且耗时。”
 
移除和更新
但是为什么要首先拆除像Titan这样的超级计算机呢?随着它的退役,它仍然被评为全球第12大功能计算机。那么,为什么不将其移至可能对其有进一步用途的其他机构呢?
一个简单的答案是,提供所有Titan需要运行的基础设施的价格标签本来是昂贵的。与新型超级计算机不同,泰坦需要三种不同的冷却系统来运行:制冷剂,冷冻水和空调,所有这些系统的维护成本都很高。此外,平均用电约4至6兆瓦,足以为3,000多个房屋供电,这是许多机构无法获得的电力服务。同时,试图用更少的机柜来减少Titan的整体尺寸和功率使用,将导致计算能力比使用更新的,更小的系统以更低的成本购买的要少。
”将它分成几部分是毫无价值的,因为它只对整体速度有利。” “所以,如果我说,‘好吧,我只想要五个机柜,’我可能会购买新技术并摆脱一个机柜。到了这一点,泰坦真的没有任何目的,除非有人想把它当作一个整体。”
像ORNL这样的国家级实验室是能够托管如此大型超级计算机系统的少数客户。实际上,实际上,Titan以前在OLCF的空间正在进行彻底的改造,以为Frontier的建设做准备。当前天花板将被永久性拆除,以便在架空安装新的电气系统。地板将被拉起,以安装新冷却系统的管道;那么新地板的重量等级将更高,以支持Frontier。改造的完成时间是2021年春季。
这是一项非常艰巨的任务,”阿布斯顿说。 “幸运的是,我们是一个可以做的实验室,我们可以安全,按时安装机器,并可以安全,按时拆卸机器。然后我们可以安全,准时地为下一台机器准备好房间。希望这是一个无尽的循环。这就是我们在这里的原因-将这些资源提供给为之付款的公民。”
资料来源:ORNL