美国世界最快超算是摆设？消息称可靠性糟糕

当前位置：首页 > 文章教程 > 新闻资讯 > 美国世界最快超算是摆设？消息称可靠性糟糕

美国世界最快超算是摆设？消息称可靠性糟糕

2022-10-10 05:45:52 来源：天空软件网我要评论()

用手机看

扫描二维码查看并分享给您的朋友

建造一台超级计算机总是具有挑战性的，但是创建业界第一个外挂级系统是遇到了完全意想不到的事情，需要在硬件和软件方面做大量的工作。不幸的是，这种情况可能发生在橡树岭国家实验室的Frontier超级计算机上，它几乎不能在没有众多硬件故障的情况下持续一天。

ORNL的Frontier是业界首个设计用于提供高达1.685 FP64 ExaFLOPS峰值性能的系统，使用AMD的64核EPYC Trento处理器、Instinct MI250X计算GPU和HPE的Slingshot互连，功率为21兆瓦。HPE构建了该系统，并使用了为扩展应用设计的Cray EX（在新标签中打开）架构，主要用于超高速超级计算机。

虽然从纸面上看，Frontier超级计算机看起来特别好，而且机器系统的硬件部分已经交付，但似乎硬件方面的问题一直追着机器上线，并提供给需要大约1 FP64 ExaFLOPS性能的研究人员。

"橡树岭领导力计算设施（OLCF）的项目主管Justin Whitt在接受InsideHPC（在新标签中打开）采访时说："我们正在解决硬件方面的问题，确保我们了解（它们是什么）。"在这种规模的情况下，你将会出现故障。这种规模的系统的平均故障间隔时间是几小时，而不是几天。"

关于Frontier的潜在硬件故障的传言已经流传了很久。根据InsideHPC（在新标签中打开）的另一篇报道，一些人说该系统的Slingshot互连出现了问题。此外，其他人表示，AMD的Instinct MI250X计算GPU今年并不像预期那样可靠。请记住，拥有更多流处理器和高时钟的X版本只向特定客户提供。

Whitt先生没有证实系统在Instinct或Slingshot方面遇到任何特别的问题，但他压根儿就没有说过机器遭受到众多的硬件问题。

"很多挑战都集中在这些[GPU]上，但这并不是我们看到的大多数挑战，"OLCF的负责人说。"在零部件故障的常见罪魁祸首中，这是一个相当好的分布，它是一个很大的组成部分。我不认为在这一点上，我们对AMD的产品有很多担忧。"

橡树岭国家实验室的Frontier超级计算机到目前为止还不是唯一使用HPE的Cray EX架构与Slingshot互连、AMD的EPYC CPU和AMD的Instinct计算GPU的系统。例如，芬兰的Lumi超级计算机（Cray EX、EPYC Milan、Instinct MI250X计算GPU）提供550 PetaFLOPS的峰值性能，被官方列为世界上第三大最强大的超级计算机。也许，问题是有效的，该机器的规模总共使用了6000万个零件。

鉴于仍未正式部署，最初承诺在2022年上线的 "前沿 "超级计算机是否能在2023年开始供研究人员使用，只有时间才能证明。

上一篇：互联网不是法外之地 6人搭建私服获利300多万获刑 下一篇：没有了