理解緊密耦合異構(gòu)系統(tǒng)中的內(nèi)存操作：Grace Hopper超級(jí)芯片指南

逍遙設(shè)計(jì)自動(dòng)化 · 發(fā)表于 3 天前

引言
高性能計(jì)算（HPC）和人工智能（AI）領(lǐng)域因異構(gòu)系統(tǒng)而發(fā)生了巨大變革，特別是那些集成了GPU的系統(tǒng)。隨著工作負(fù)載越來(lái)越受內(nèi)存限制，優(yōu)化系統(tǒng)內(nèi)部的通信延遲和帶寬變得極為重要。NVIDIA Grace Hopper超級(jí)芯片（GH200）代表了緊密耦合異構(gòu)系統(tǒng)的重大進(jìn)步，提供了統(tǒng)一的地址空間和對(duì)系統(tǒng)所有主內(nèi)存的透明細(xì)粒度訪問(wèn)。

本文將探討Quad GH200節(jié)點(diǎn)的架構(gòu)（這是瑞士國(guó)家超級(jí)計(jì)算中心Alps超級(jí)計(jì)算機(jī)的基本構(gòu)建塊），并提供有關(guān)如何優(yōu)化這一尖端系統(tǒng)內(nèi)存操作的見(jiàn)解[1]。

架構(gòu)概述
Quad GH200節(jié)點(diǎn)由四個(gè)GH200超級(jí)芯片組成，每個(gè)超級(jí)芯片結(jié)合了一個(gè)Grace CPU和一個(gè)Hopper GPU。這些單元通過(guò)NVLink和緩存一致性互連全面互聯(lián)。讓我們來(lái)看看關(guān)鍵組件：

圖1：Quad GH200節(jié)點(diǎn)的架構(gòu)

如圖1所示，每個(gè)GH200超級(jí)芯片具有以下特點(diǎn)：

一個(gè)Grace CPU，有72個(gè)Arm Neoverse V2核心

一個(gè)Hopper GPU，有132個(gè)流式多處理器（SMs）

96GB的HBM3內(nèi)存（4000 GB/s帶寬）

128GB的LPDDR5內(nèi)存（500 GB/s帶寬）

GH200單元通過(guò)以下方式互連：

NVLink：每個(gè)方向150 GB/s（總共900 GB/s）

Grace互連：每個(gè)方向150 GB/s

NVLink-C2C（C2C）：每個(gè)方向450 GB/s（總共900 GB/s）

每個(gè)節(jié)點(diǎn)還通過(guò)單獨(dú)的網(wǎng)絡(luò)接口卡連接到Slingshot網(wǎng)絡(luò)，每個(gè)方向提供25 GB/s（總共200 GB/s）的節(jié)點(diǎn)間通信。

內(nèi)存層次結(jié)構(gòu)和NUMA
Quad GH200系統(tǒng)呈現(xiàn)出復(fù)雜的內(nèi)存層次結(jié)構(gòu)，具有非統(tǒng)一內(nèi)存訪問(wèn)（NUMA）特性。
每個(gè)GH200由兩個(gè)NUMA節(jié)點(diǎn)組成：

與Grace親和的LPDDR5內(nèi)存

與Hopper親和的HBM3內(nèi)存
[/ol]
總的來(lái)說(shuō)，一個(gè)Quad GH200節(jié)點(diǎn)有八個(gè)NUMA節(jié)點(diǎn)，四個(gè)與Grace CPU相關(guān)（NUMA 0-3），四個(gè)與Hopper GPU相關(guān)（NUMA 4, 12, 20, 28）。

理解數(shù)據(jù)路徑
為了優(yōu)化內(nèi)存操作，理解不同類型操作的數(shù)據(jù)路徑非常重要。讓我們來(lái)看看讀取、寫(xiě)入和復(fù)制操作：

圖2：Hopper操作的數(shù)據(jù)路徑

圖2說(shuō)明了Hopper GPU執(zhí)行的讀取、寫(xiě)入和復(fù)制操作的數(shù)據(jù)路徑。
注意：

本地HBM訪問(wèn)具有最短的路徑和最高的帶寬（4000 GB/s）

跨C2C互連的操作限制在450 GB/s

復(fù)制操作可能需要多次互連遍歷，影響可達(dá)到的帶寬

內(nèi)存操作基準(zhǔn)測(cè)試
為了理解Quad GH200系統(tǒng)的性能特征，我們將檢查各種微基準(zhǔn)測(cè)試的結(jié)果：
1. 讀取和寫(xiě)入操作：

圖3：讀取和寫(xiě)入吞吐量

圖3顯示了Grace和Hopper在不同類型內(nèi)存上進(jìn)行讀取和寫(xiě)入操作的吞吐量，包括空閑條件下和C2C互連負(fù)載下的情況。
主要觀察：

Hopper通常在本地內(nèi)存訪問(wèn)時(shí)更好地利用C2C互連

跨越C2C和NVLink的操作會(huì)產(chǎn)生顯著開(kāi)銷

在負(fù)載下，對(duì)HBM的寫(xiě)入受影響最大，特別是對(duì)Grace而言

2. 復(fù)制操作：

圖4：復(fù)制吞吐量

圖4說(shuō)明了Grace和Hopper在不同源和目標(biāo)內(nèi)存類型之間進(jìn)行復(fù)制操作的吞吐量。
值得注意的發(fā)現(xiàn)：

內(nèi)存?zhèn)鬏敶嬖诓粚?duì)稱性（例如，Grace在從本地內(nèi)存復(fù)制到對(duì)等GH200時(shí)達(dá)到更高的吞吐量）

Hopper在跨越多個(gè)互連時(shí)通常能更有效地利用可用帶寬

3. 延遲：

圖5：主內(nèi)存訪問(wèn)延遲

圖5顯示了Grace和Hopper的主內(nèi)存訪問(wèn)延遲。有趣的是，跨越C2C互連的訪問(wèn)（Grace到HBM和Hopper到DDR）表現(xiàn)出相似的延遲。

優(yōu)化應(yīng)用程序
理解這些性能特征對(duì)于在Quad GH200系統(tǒng)上優(yōu)化應(yīng)用程序非常重要。讓我們來(lái)看一些示例工作負(fù)載及其基于內(nèi)存放置的性能：
1. GEMM（通用矩陣乘法）：

圖6：GEMM性能

圖6顯示了矩陣放置在不同內(nèi)存位置的GEMM操作性能。主要要點(diǎn)：

HBM放置對(duì)于最佳性能至關(guān)重要，特別是對(duì)于使用Tensor Cores的數(shù)據(jù)類型

即使將一個(gè)矩陣移出HBM也可能顯著影響性能

2. LLM（大型語(yǔ)言模型）推理：

圖7：LLM推理時(shí)間

圖7顯示了不同模型和內(nèi)存分配的LLM推理時(shí)間。觀察結(jié)果：

內(nèi)存訪問(wèn)速度對(duì)吞吐量起著根本作用

HBM分配提供最佳性能，而對(duì)等內(nèi)存訪問(wèn)顯著影響推理時(shí)間

3. NCCL（NVIDIA集體通信庫(kù)）操作：

圖8：NCCL All Reduce和All Gather性能

圖8說(shuō)明了節(jié)點(diǎn)內(nèi)All Reduce和All Gather操作的性能。關(guān)鍵點(diǎn)：

超級(jí)芯片局部性比使用的內(nèi)存類型更重要

同一GH200內(nèi)存大大優(yōu)于對(duì)等訪問(wèn)

最佳實(shí)踐和建議
基于從這些基準(zhǔn)測(cè)試和應(yīng)用程序示例中獲得的見(jiàn)解，以下是在Quad GH200系統(tǒng)上優(yōu)化內(nèi)存操作的一些最佳實(shí)踐：

優(yōu)先使用HBM：盡可能將性能關(guān)鍵數(shù)據(jù)放在本地HBM內(nèi)存中，特別是對(duì)于GPU密集型工作負(fù)載。

最小化跨GH200訪問(wèn)：盡量將數(shù)據(jù)保持在執(zhí)行計(jì)算的GH200單元本地，因?yàn)閷?duì)等內(nèi)存訪問(wèn)會(huì)導(dǎo)致顯著的性能損失。

謹(jǐn)慎利用統(tǒng)一內(nèi)存：雖然統(tǒng)一內(nèi)存簡(jiǎn)化了編程，但要注意與顯式內(nèi)存管理相比的性能特征。

考慮內(nèi)存?zhèn)鬏數(shù)牟粚?duì)稱性：在設(shè)計(jì)數(shù)據(jù)移動(dòng)模式時(shí)，要考慮不同內(nèi)存類型之間復(fù)制操作的不對(duì)稱性。

優(yōu)化集體操作：對(duì)于使用NCCL或類似庫(kù)的應(yīng)用程序，專注于超級(jí)芯片局部性以最大化性能。

分析和迭代：使用分析工具識(shí)別應(yīng)用程序中的內(nèi)存訪問(wèn)模式，并根據(jù)系統(tǒng)的性能特征迭代優(yōu)化數(shù)據(jù)放置。
[/ol]
結(jié)論
Quad GH200節(jié)點(diǎn)為HPC和AI工作負(fù)載提供了強(qiáng)大的計(jì)算能力和內(nèi)存帶寬。然而，要充分利用其潛力，開(kāi)發(fā)人員必須理解其復(fù)雜的內(nèi)存層次結(jié)構(gòu)并相應(yīng)地優(yōu)化數(shù)據(jù)放置。通過(guò)遵循本文概述的最佳實(shí)踐并仔細(xì)考慮不同內(nèi)存操作的性能特征，可以顯著提高在這一先進(jìn)異構(gòu)系統(tǒng)上應(yīng)用程序的效率。

參考文獻(xiàn)
[1] L. Fusco et al., "Understanding Data Movement in Tightly Coupled Heterogeneous Systems: A Case Study with the Grace Hopper Superchip," arXiv preprint arXiv:2408.11556v2, Aug. 2024.

END

軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)

歡迎轉(zhuǎn)載

轉(zhuǎn)載請(qǐng)注明出處，請(qǐng)勿修改內(nèi)容和刪除作者信息！

' ~# c( Z' H; e- r

關(guān)注我們

: k; {. F$ Y( V0 P

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化（EDA）的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件，提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點(diǎn)擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

理解緊密耦合異構(gòu)系統(tǒng)中的內(nèi)存操作：Grace Hopper超級(jí)芯片指南

發(fā)表回復(fù)

精選推薦