2024年9月26日,全球最權(quán)威、影響力最廣的AI基準(zhǔn)測(cè)試MLPERF發(fā)布了Storage V1.0 AI基準(zhǔn)測(cè)試結(jié)果,華為OceanStor A800全新AI存儲(chǔ)在全球廠商中脫穎而出,總性能,每節(jié)點(diǎn)性能、每U性能均是全球第一。
MLPERF benchmark是一個(gè)衡量人工智能硬件、軟件和服務(wù)性能的標(biāo)準(zhǔn)化基礎(chǔ)測(cè)試平臺(tái),它由圖靈獎(jiǎng)得主大衛(wèi)帕特森(David Patterson)聯(lián)合谷歌、斯坦福、哈佛大學(xué)等頂尖企業(yè)和學(xué)術(shù)機(jī)構(gòu)成立,是權(quán)威性最大、影響力最廣的國(guó)際AI性能基準(zhǔn)測(cè)試。為了緊跟行業(yè)前沿,MLPERF每年發(fā)布基準(zhǔn)測(cè)試數(shù)據(jù),獲得全球廣泛認(rèn)可。
本次存儲(chǔ)性能測(cè)試共有業(yè)界主流的13家廠商參與,通過運(yùn)行一個(gè)分布式訓(xùn)練測(cè)試程序,模擬GPU計(jì)算過程,最大程度還原AI服務(wù)器對(duì)存儲(chǔ)系統(tǒng)的訪問模型。以模擬AI存儲(chǔ)系統(tǒng)能夠支撐的最大GPU數(shù)量,來評(píng)估存儲(chǔ)系統(tǒng)測(cè)試性能表現(xiàn)。其中3D U-Net工作負(fù)載每FLOPS算力所需存儲(chǔ)帶寬最高,且數(shù)據(jù)需要從存儲(chǔ)節(jié)點(diǎn)讀取,不允許提前在主機(jī)上緩存,能夠真實(shí)體現(xiàn)存儲(chǔ)系統(tǒng)性能,更全面、更準(zhǔn)確地反映存儲(chǔ)在大規(guī)模AI集群的性能表現(xiàn)。
特別需要注意的是,MLPerf Storage Benchmark的目標(biāo)是在滿足一定加速器利用率(Accelerator utilization)的前提下,測(cè)試出存儲(chǔ)系統(tǒng)能夠支持的最大加速器(Accelerator)數(shù)量以及能夠提供的最大帶寬。如果希望獲得比較好的結(jié)果,需要從幾個(gè)方面進(jìn)行努力:模擬更多的GPU卡數(shù)、存儲(chǔ)系統(tǒng)需要提供穩(wěn)定的低時(shí)延、穩(wěn)定的高帶寬,因此,這個(gè)榜單評(píng)測(cè)的目標(biāo)是存儲(chǔ)系統(tǒng)的性能,每計(jì)算節(jié)點(diǎn)的加速器(Accelerator)數(shù)量和帶寬取決于計(jì)算節(jié)點(diǎn)的服務(wù)器性能,和存儲(chǔ)沒有關(guān)系。在模擬的GPU型號(hào)相同的情況下,總ACC數(shù)量(模擬的GPU數(shù))和帶寬才能反映存儲(chǔ)的能力。
MLPERF Storage V1.0 基準(zhǔn)測(cè)試結(jié)果-總性能華為排名第一
MLPERF Storage V1.0 基準(zhǔn)測(cè)試結(jié)果-每節(jié)點(diǎn)性能華為排名第一
MLPERF Storage V1.0 基準(zhǔn)測(cè)試結(jié)果-每U性能華為排名第一
本次獲得存儲(chǔ)性能測(cè)試全球第一的AI存儲(chǔ)華為OceanStor A800,通過單臺(tái)設(shè)備成功滿足了255張H100 GPU訓(xùn)練的數(shù)據(jù)吞吐需求,GPU利用率保持90%以上,單框穩(wěn)定帶寬高達(dá)679 GB/s,是傳統(tǒng)存儲(chǔ)性能的10倍。平均每節(jié)點(diǎn)提供高達(dá)340GB/s帶寬,每U提供高達(dá)85GB/s的帶寬,分別是第二名2.88倍和1.44倍,體現(xiàn)了OceanStor A800全面領(lǐng)先的競(jìng)爭(zhēng)力。同時(shí)可以通過OceanStor A800大規(guī)模橫向擴(kuò)展提供百TB級(jí)帶寬,checkpoint讀寫時(shí)間從10分鐘縮短至秒級(jí),斷點(diǎn)續(xù)訓(xùn)時(shí)間小于15分鐘,極大減少GPU等待,端到端算力利用率提升30%+,全面提升大模型訓(xùn)練效率。首次參與即在MLPERF Storage V1.0基準(zhǔn)測(cè)試性能榜單登頂,這一成就不僅彰顯了華為數(shù)據(jù)存儲(chǔ)技術(shù)的卓越實(shí)力,更標(biāo)志著華為數(shù)據(jù)存儲(chǔ)在業(yè)界又達(dá)成一個(gè)關(guān)鍵里程碑。
華為數(shù)據(jù)存儲(chǔ)深耕細(xì)作,持續(xù)創(chuàng)新,推出全新OceanStor A系列AI存儲(chǔ)。面向AI場(chǎng)景混合負(fù)載,基于全新硬件,打造架構(gòu)領(lǐng)先的存儲(chǔ)系統(tǒng),具備卓越性能、EB級(jí)彈性擴(kuò)展、推理長(zhǎng)記憶等能力,全面加速AI大模型訓(xùn)推業(yè)務(wù)。
面向未來,華為AI存儲(chǔ)在AI大模型領(lǐng)域將持續(xù)深耕,不斷突破性能極限,駕馭AI大模型數(shù)據(jù)浪潮,引領(lǐng)數(shù)據(jù)未來。