建造一台超级计算机总是具有挑战性的,但是创建业界第一个外挂级系统是遇到了完全意想不到的事情,需要在硬件和软件方面做大量的工作。不幸的是,这种情况可能发生在橡树岭国家实验室的Frontier超级计算机上,它几乎不能在没有众多硬件故障的情况下持续一天。
ORNL的Frontier是业界首个设计用于提供高达1.685 FP64 ExaFLOPS峰值性能的系统,使用AMD的64核EPYC Trento处理器、Instinct MI250X计算GPU和HPE的Slingshot互连,功率为21兆瓦。HPE构建了该系统,并使用了为扩展应用设计的Cray EX(在新标签中打开)架构,主要用于超高速超级计算机。
虽然从纸面上看,Frontier超级计算机看起来特别好,而且机器系统的硬件部分已经交付,但似乎硬件方面的问题一直追着机器上线,并提供给需要大约1 FP64 ExaFLOPS性能的研究人员。
"橡树岭领导力计算设施(OLCF)的项目主管Justin Whitt在接受InsideHPC(在新标签中打开)采访时说:"我们正在解决硬件方面的问题,确保我们了解(它们是什么)。"在这种规模的情况下,你将会出现故障。这种规模的系统的平均故障间隔时间是几小时,而不是几天。"
关于Frontier的潜在硬件故障的传言已经流传了很久。根据InsideHPC(在新标签中打开)的另一篇报道,一些人说该系统的Slingshot互连出现了问题。此外,其他人表示,AMD的Instinct MI250X计算GPU今年并不像预期那样可靠。请记住,拥有更多流处理器和高时钟的X版本只向特定客户提供。
Whitt先生没有证实系统在Instinct或Slingshot方面遇到任何特别的问题,但他压根儿就没有说过机器遭受到众多的硬件问题。
"很多挑战都集中在这些[GPU]上,但这并不是我们看到的大多数挑战,"OLCF的负责人说。"在零部件故障的常见罪魁祸首中,这是一个相当好的分布,它是一个很大的组成部分。我不认为在这一点上,我们对AMD的产品有很多担忧。"
橡树岭国家实验室的Frontier超级计算机到目前为止还不是唯一使用HPE的Cray EX架构与Slingshot互连、AMD的EPYC CPU和AMD的Instinct计算GPU的系统。例如,芬兰的Lumi超级计算机(Cray EX、EPYC Milan、Instinct MI250X计算GPU)提供550 PetaFLOPS的峰值性能,被官方列为世界上第三大最强大的超级计算机。也许,问题是有效的,该机器的规模总共使用了6000万个零件。
鉴于仍未正式部署,最初承诺在2022年上线的 "前沿 "超级计算机是否能在2023年开始供研究人员使用,只有时间才能证明。
看过本文的人还看过
- 湖南省打开“迈向欧洲地区”进出口贸易名品店沟通交流周 扩展出口外贸协作新途径
- 中国大陆西部地区建成的第一座核电站位于竹山村还是红沙村 蚂蚁新村12.13答案
- 快评:第181个!危地马拉立在历史时间恰当的一边
- 蚂蚁庄园今日答案(每日更新) 蚂蚁庄园今日答案6月9日
- 中间自始至终是中国香港处理经济发展民生工程难点的坚强后盾
- 有钱的上!B&O电动电视支架内置全景声
- 包钢真实的工人收入有多少,包钢职工疑因炒股亏损跳入钢水渣罐自杀,普通人炒股票能靠谱吗
- 肺炎疫情极速恶变美防治最新政策惹议 权威专家忧政冶驾驭科学合理
- 苹果最便宜的5G手机 iPhone SE 3或售3299起
- 《阿尔弗莱德·希区柯克 迷魂记》12.17上线,电影艺术设计怎样融入角色的世界?