美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室的 Frontier 是全球首臺(tái)真正意義上達(dá)到 ExaFLOP 級(jí)別(百億億次)的超級(jí)計(jì)算機(jī),在高性能 Linpack(HPL)基準(zhǔn)里,顯示其運(yùn)算性能達(dá)到了 1.102 Exaflop/s,峰值性能達(dá)到了 1.685 Exaflop/s。打造一臺(tái)超級(jí)計(jì)算機(jī)并不是一件容易的事情,需要面對(duì)大量的硬件和軟件工作,而且有可能遇到意料之外的狀況,特別是 Frontier 這種采用新架構(gòu)、性能有跨越式提升的超算。

據(jù) TomsHardware 報(bào)道,目前 Frontier 的運(yùn)轉(zhuǎn)情況并不好,幾乎沒有一天是完全正常運(yùn)轉(zhuǎn),平均故障間隔時(shí)間僅為數(shù)個(gè)小時(shí)。有關(guān) Frontier 存在硬件問題的消息已經(jīng)流傳有一段時(shí)間了,有消息稱可能與該系統(tǒng)采用的 HPE Slingshot 互連系統(tǒng)有關(guān),也有傳聞指 Instinct MI250X 計(jì)算卡并不是那么可靠。
Frontier 基于 HPE Cray EX235a 架構(gòu),采用了 AMD 第三代 EPYC 處理器,頻率為 2GHz,整個(gè)系統(tǒng)共有 8730112 個(gè)內(nèi)核。每個(gè) HPE Cray EX 節(jié)點(diǎn)包括了一塊 AMD 的 64 核 EPYC"Trento"7A53 處理器(代號(hào) Milan 的 Zen 3 架構(gòu)衍生產(chǎn)品),512GB 的 DDR4 內(nèi)存,以及四塊 Instinct MI250X 計(jì)算卡,通過四個(gè) HPE Slingshot 200Gbps 以太網(wǎng) NIC(25GB/s)連接,提供 800Gbps(100 GB/s)的節(jié)點(diǎn)帶寬。
Frontier 并不是唯一一款采用 HPE Cray EX 架構(gòu)及 HPE Slingshot 互連系統(tǒng)的超級(jí)計(jì)算機(jī),芬蘭名為 Lumi 的超算幾乎采用了相同的架構(gòu),不過規(guī)模要小一些,峰值性能為 0.55 ExaFLOPS,似乎并沒有出現(xiàn)類似的問題。
Frontier 原計(jì)劃在 2022 年上線,不過至今仍未正式部署,不知道 2023 年是否可以向研究人員開放。
原文地址:http://www.myzaker.com/article/6342c98cb15ec024f015212c
轉(zhuǎn)載請(qǐng)注明:首臺(tái)ExaFLOP級(jí)超算Frontier幾乎每天都有故障,問題或出自GPU及互聯(lián)系統(tǒng) | 快導(dǎo)航網(wǎng)







川公網(wǎng)安備51012402001058號(hào)