電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 382|回復: 0
收起左側(cè)

Hot Chips 2024 | AMD Instinct MI300X新一代加速器推動AI和高性能計算

[復制鏈接]

552

主題

552

帖子

4418

積分

四級會員

Rank: 4

積分
4418
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-29 08:02:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
5 X/ |5 v; d( J$ P7 ~: r本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計算(HPC)技術的進步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。
7 S* E8 Y8 x) K6 T3 ]0 v5 `! [" E( A) A$ e0 W6 `5 H3 W7 v% v
AMD Instinct MI300X簡介5 j( K' l# K1 m  x
AMD Instinct MI300X是AMD持續(xù)推進HPC和AI計算能力的成果。在其前代產(chǎn)品的基礎上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點內(nèi)網(wǎng)絡通信的改進。$ b9 I: O2 R* B# c
0 \$ I9 s0 g8 ]; M9 B4 j6 z
) g  ^7 C  a# I/ m" Z
圖1:AMD Instinct加速器的演進歷程,展示了從MI100到MI300X的技術發(fā)展重點。
" U1 |; R6 A( d  O/ D. r$ g/ r0 h, ^
架構(gòu)概述. ^& u, V" p& \7 ]1 }9 {
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設計,包含1530億個晶體管,使用臺積電5nm和6nm FinFET工藝制造。
) A: b' A/ |$ I: @7 T # m) a7 J4 m9 v
圖2:詳細展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個XCD(GPU Chiplet)、HBM3內(nèi)存和互連設計。1 |% i# C- S! P& M# a4 v( t3 l* f
  a8 ~: c5 X: j* s& Q6 [5 Z" n
MI300X的主要特性包括:
$ V1 F# i& p7 [$ W" c# r' N. Y% u- X* }
  • 304個計算單元
  • 1,216個矩陣核心
  • 192GB HBM3內(nèi)存,帶寬達5.2 TB/s
  • 第四代Infinity Fabric,帶寬高達896 GB/s1 Z4 J- s: l% M+ ~$ v$ O% S

    3 Y# b$ {1 K# s  wMI300X的架構(gòu)針對AI工作負載進行了優(yōu)化,特別是在矩陣運算和低精度計算方面。/ v1 l: L7 o1 s

    ; e+ h  u) T0 SCDNA 3架構(gòu)改進
    / A1 B, ]0 ^1 {CDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
    ' O- M* o, C9 Y% ]- j
  • 每時鐘周期每計算單元的低精度矩陣運算能力翻倍
  • 支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性
  • 新增TF32和FP8數(shù)值格式支持
  • 支持各種浮點和整數(shù)運算的并發(fā)執(zhí)行9 X! l. [$ l( h: ?& I3 m; y

    6 [- ]$ R+ H4 ^& \* B/ J; K3 A; ?
    4 [9 `/ o6 z1 f, a/ C8 g) J
    # }& \1 p" n8 f7 R圖3:MI300X與MI250X計算能力的詳細對比,突顯各種數(shù)據(jù)格式的性能提升。
    5 P" Q, S+ V2 z! y
    5 k2 Z4 M' U) N8 h& A7 h

    ' z' A5 j% w0 {( P' v/ V內(nèi)存系統(tǒng)
    - U) S4 D7 j5 |5 B  VMI300X的一個突出特點是其內(nèi)存系統(tǒng):
    6 m. w+ J8 I% c# T" Y: {2 O! P
  • 全球首個8堆棧HBM3內(nèi)存架構(gòu)
  • 每個加速器配備192GB HBM3內(nèi)存
  • 5.2 TB/s的內(nèi)存帶寬
    & y/ E8 T: k9 C: Q

    . ^% N9 }2 k% r7 F4 Q$ `, B5 f這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個MI300X平臺可以支持高達6800億參數(shù)的LLM推理任務。
    / j- E# @1 o# V! M2 }- y
    " ^2 r' e9 B2 U) t圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。
    7 c2 T9 l4 Y% R# ~% A8 ~, w
    + J$ Q8 h3 ^4 A, R/ ~: K2 Y1 p1 I+ y緩存層級和Infinity Cache
    ) F  _  z+ |2 h! L9 P9 g+ W# ?7 |MI300X具有復雜的緩存層級結(jié)構(gòu):
    ( c3 D7 m0 o! x2 w" p# |
  • 每個計算單元32 KiB L1數(shù)據(jù)緩存
  • 每兩個計算單元共享64 KiB L1指令緩存
  • 每個XCD有4 MiB L2緩存
  • 256 MiB Infinity Cache7 X; ~2 _) G/ `. R: Q
    8 k' p. \$ l# o( |* D, ?# l+ [
    * A0 ^4 N3 n: g# u/ Z

    ) U. l" \5 a2 Q& D& h9 @- {: ^6 p1 U圖5:MI300X的緩存和內(nèi)存層級結(jié)構(gòu)圖。
    " Z, G+ g0 b$ v7 v% _0 w
    5 R4 c) e  S* r$ W) ~1 V6 Y6 @1 [Infinity Cache是一個亮點特性,提供256 MB緩存,峰值帶寬達14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。
    / h4 P  i; u8 L& Q1 O1 N8 z# t( L2 M. n' y
    空間分區(qū)和虛擬化* \9 s* B8 I, s9 q3 w+ \& h0 R
    MI300X支持靈活的空間分區(qū),允許將GPU分為多個分區(qū):8 S% b7 t2 [( i
  • 可以分為與XCD數(shù)量相等的分區(qū)
  • 支持單根I/O虛擬化(SR-IOV),每個平臺最多64個虛擬功能(VF)
  • 支持動態(tài)重新分區(qū)以優(yōu)化工作負載
    6 ^$ v4 s# S: e* p

    ; F$ _! X( D+ ]+ f% C3 J- ]8 a8 n
    / \, a+ f' j+ P  b; |& D' \
    圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負載和虛擬化場景下的靈活性。
    + F- `- N' Q& w, I% o; `. F+ f% L. w, x, y( r# z
    AMD Instinct MI300X平臺# S/ Y. o* X2 \) Y- ]. a
    MI300X設計為在平臺配置中工作,通常包括:
    . l1 m6 t1 F6 l' F
  • 8個AMD Instinct MI300X加速器
  • BF16/FP16性能約為10.4 PetaFLOPS
  • 總計1.5 TB HBM3內(nèi)存
  • Infinity Fabric帶寬約為896 GB/s8 B- N( M% C5 H5 X
    2 g! f4 ~9 d# l, b/ Z4 ^4 t
    2 @# z! V2 t. m" m5 q, H

    . v, k1 ~' i; K圖7:AMD Instinct MI300X平臺的概覽,展示其作為領先生成式AI平臺的關鍵特性。: q" ]6 ~! ~  K  ]) e+ k
    ) I% ]# l$ n5 A6 x" P5 m
    Infinity平臺和生態(tài)系統(tǒng)0 |) ?& t* T9 D
    MI300X Infinity平臺通過AMD Infinity Fabric為8個OAM(開放加速器模塊)提供直接連接:
    ' x4 l# n" h; C7 Y  A5 H  E
  • 七個雙向鏈路,每個帶寬為128 GB/s
  • 每個OAM配備PCIe Gen 5 x16,用于服務器連接和I/O
  • 192GB HBM用于RDMA(遠程直接內(nèi)存訪問)
    - Z- }6 h3 }" W5 a

    1 v/ A1 O" b+ [# Y% E
    3 h! `* G. B8 \( z5 t
    / N. Y; |& K. I圖8:展示了MI300X Infinity平臺的結(jié)構(gòu),說明了多個MI300X加速器之間的互連以及與主機服務器的連接方式。" E6 f9 G: y" W" t. I  Q
    . P- J" u) E( \! V3 w" ?
    該平臺還符合行業(yè)標準并提供高級特性:
    / j" t% X. I# o
  • 符合UBB 2.0標準,實現(xiàn)快速部署和無縫數(shù)據(jù)中心集成
  • 增強的安全特性,包括SPDM認證
  • 全面的RAS(可靠性、可用性、可服務性)特性
  • 先進的遙測和固件管理功能( ~" D8 e! t* W

    : h8 A) T) m0 K8 x9 y( ^3 c軟件生態(tài)系統(tǒng)& ?/ v/ X) K- W9 T. f% r5 o
    AMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):" P( k3 d% }8 I- V0 E
  • ROCm(Radeon開放計算)平臺用于GPU計算
  • 針對AI和HPC工作負載優(yōu)化的庫
  • 支持流行的AI框架,如PyTorch和TensorFlow
  • 擴展的開發(fā)者工具和運行時環(huán)境. G. `5 f% X2 G& F5 E& w8 _
    8 e9 o, a0 P4 l& S5 v
    這個軟件棧確保開發(fā)者能在各種應用中高效利用MI300X的能力。* C0 G' Z; V4 [! p; Q/ j

    6 W; R7 e0 I9 ], UAI工作負載性能2 j- s3 l% s: i7 V2 [
    MI300X在各種AI任務中展現(xiàn)了令人印象深刻的性能:
    $ q. c  `( h; C% ]
  • Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍
  • Mistral-7B模型的吞吐量高出1.2倍
  • 在模型微調(diào)任務中表現(xiàn)出色4 ~$ P% J& E  f5 m5 S
    & m$ O/ r! H* f& a& @9 |8 I2 Z

    + d+ b" j2 V1 H& j
    $ H" R2 |# ?) w& ~5 f* ~2 w圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。6 m5 i' i* ?! T4 Y+ P( n( L
    7 z* i& U! J; q; Q
    結(jié)論: J- R2 d" v& ?0 k9 T
    AMD Instinct MI300X代表了AI和HPC工作負載加速器技術的進步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強大的計算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復雜AI模型需求的不斷增長,MI300X高效處理這些工作負載的能力使其成為推動AI研究和部署的理想選擇。
    3 A& Z9 y" A5 i- M2 ?
    1 R1 M2 _  p5 S9 p, H憑借靈活的分區(qū)、先進的內(nèi)存系統(tǒng)和強大的軟件生態(tài)系統(tǒng),MI300X完全有能力應對從訓練大型語言模型到加速推理任務的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計算領域推動創(chuàng)新的承諾。" P; N6 U$ p1 r  b( K* P3 J7 z# n

    ; h( W1 _  g8 }- u參考文獻
    $ s, y7 C$ s8 a8 p5 c* n* u! y/ _$ B/ j[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.
    . P2 l$ k& N0 n; N
    & X( i: l' N' x1 N- END -
    1 Q* V$ `% o5 p$ J) |% R# J3 r0 c
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。1 c" m5 f2 {7 S! e/ ?
    點擊左下角"閱讀原文"馬上申請
    $ A5 ^5 _7 ?' c* n
    5 _8 q& j' U7 g- E歡迎轉(zhuǎn)載$ T7 @; L& k! Y. E7 R& Y& P+ N2 V

    , G  x8 I- D+ u$ e/ H轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!/ N  l9 N" Y% j) Q

    * v# e6 b9 I$ H. t! @% v  S" [" W8 N
    7 r1 H% F% H4 H% x' k& k

    $ O2 U1 |' o: B3 U# n* i' `9 a8 U- [) U" T/ U
    關注我們
    6 o2 G9 S6 @# s4 @4 G
    # c/ o$ S- f7 X/ Y8 Y
    ( \! m* U& w) p, H8 W( B  ~; I

    1 K1 s0 S2 h, p1 a
    0 ~: W: e, X* P/ h9 M+ a

    6 `3 w. t. H+ i( F5 r
    3 G8 `2 C2 ]. y6 |6 q5 y

      }& v5 W* z, [( \
                          $ J3 k% L9 s  T  f& J
    6 @0 m' ^1 H' S+ U
    . p; `3 U6 d9 l1 Y( {' n5 z$ E
    / z0 [/ J" }+ d
    關于我們:
    . F" r- w5 ]# q深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。
    7 ?3 k' |/ W. m& K: S4 u' q+ i/ w) w! U, x, W
    http://www.latitudeda.com/. ]6 K% i  p; z2 u$ B9 E
    (點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復

    使用道具 舉報

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關注微信 下載APP 返回頂部 返回列表