|
引言
5 X/ |5 v; d( J$ P7 ~: r本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計算(HPC)技術的進步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。
7 S* E8 Y8 x) K6 T3 ]0 v5 `! [" E( A) A$ e0 W6 `5 H3 W7 v% v
AMD Instinct MI300X簡介5 j( K' l# K1 m x
AMD Instinct MI300X是AMD持續(xù)推進HPC和AI計算能力的成果。在其前代產(chǎn)品的基礎上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點內(nèi)網(wǎng)絡通信的改進。$ b9 I: O2 R* B# c
0 \$ I9 s0 g8 ]; M9 B4 j6 z
q2iowyshnqu64024937633.png (298.57 KB, 下載次數(shù): 4)
下載附件
保存到相冊
q2iowyshnqu64024937633.png
2024-9-30 01:35 上傳
) g ^7 C a# I/ m" Z
圖1:AMD Instinct加速器的演進歷程,展示了從MI100到MI300X的技術發(fā)展重點。
" U1 |; R6 A( d O/ D. r$ g/ r0 h, ^
架構(gòu)概述. ^& u, V" p& \7 ]1 }9 {
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設計,包含1530億個晶體管,使用臺積電5nm和6nm FinFET工藝制造。
) A: b' A/ |$ I: @7 T
yh3125r1hyw64024937733.png (819.88 KB, 下載次數(shù): 4)
下載附件
保存到相冊
yh3125r1hyw64024937733.png
2024-9-30 01:35 上傳
# m) a7 J4 m9 v
圖2:詳細展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個XCD(GPU Chiplet)、HBM3內(nèi)存和互連設計。1 |% i# C- S! P& M# a4 v( t3 l* f
a8 ~: c5 X: j* s& Q6 [5 Z" n
MI300X的主要特性包括:
$ V1 F# i& p7 [$ W" c# r' N. Y% u- X* }304個計算單元1,216個矩陣核心192GB HBM3內(nèi)存,帶寬達5.2 TB/s第四代Infinity Fabric,帶寬高達896 GB/s1 Z4 J- s: l% M+ ~$ v$ O% S
3 Y# b$ {1 K# s wMI300X的架構(gòu)針對AI工作負載進行了優(yōu)化,特別是在矩陣運算和低精度計算方面。/ v1 l: L7 o1 s
; e+ h u) T0 SCDNA 3架構(gòu)改進
/ A1 B, ]0 ^1 {CDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
' O- M* o, C9 Y% ]- j每時鐘周期每計算單元的低精度矩陣運算能力翻倍支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性新增TF32和FP8數(shù)值格式支持支持各種浮點和整數(shù)運算的并發(fā)執(zhí)行9 X! l. [$ l( h: ?& I3 m; y
6 [- ]$ R+ H4 ^& \* B/ J; K3 A; ?
4 [9 `/ o6 z1 f, a/ C8 g) J
ogek23y05in64024937833.png (67.16 KB, 下載次數(shù): 5)
下載附件
保存到相冊
ogek23y05in64024937833.png
2024-9-30 01:35 上傳
# }& \1 p" n8 f7 R圖3:MI300X與MI250X計算能力的詳細對比,突顯各種數(shù)據(jù)格式的性能提升。
5 P" Q, S+ V2 z! y
5 k2 Z4 M' U) N8 h& A7 h
' z' A5 j% w0 {( P' v/ V內(nèi)存系統(tǒng)
- U) S4 D7 j5 |5 B VMI300X的一個突出特點是其內(nèi)存系統(tǒng):
6 m. w+ J8 I% c# T" Y: {2 O! P全球首個8堆棧HBM3內(nèi)存架構(gòu)每個加速器配備192GB HBM3內(nèi)存5.2 TB/s的內(nèi)存帶寬
& y/ E8 T: k9 C: Q
. ^% N9 }2 k% r7 F4 Q$ `, B5 f這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個MI300X平臺可以支持高達6800億參數(shù)的LLM推理任務。
/ j- E# @1 o# V! M2 }- y
abjx3vckule64024937933.png (71.21 KB, 下載次數(shù): 4)
下載附件
保存到相冊
abjx3vckule64024937933.png
2024-9-30 01:35 上傳
" ^2 r' e9 B2 U) t圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。
7 c2 T9 l4 Y% R# ~% A8 ~, w
+ J$ Q8 h3 ^4 A, R/ ~: K2 Y1 p1 I+ y緩存層級和Infinity Cache
) F _ z+ |2 h! L9 P9 g+ W# ?7 |MI300X具有復雜的緩存層級結(jié)構(gòu):
( c3 D7 m0 o! x2 w" p# |每個計算單元32 KiB L1數(shù)據(jù)緩存每兩個計算單元共享64 KiB L1指令緩存每個XCD有4 MiB L2緩存256 MiB Infinity Cache7 X; ~2 _) G/ `. R: Q
8 k' p. \$ l# o( |* D, ?# l+ [
* A0 ^4 N3 n: g# u/ Z
4exaqyeliv064024938033.png (308.15 KB, 下載次數(shù): 5)
下載附件
保存到相冊
4exaqyeliv064024938033.png
2024-9-30 01:35 上傳
) U. l" \5 a2 Q& D& h9 @- {: ^6 p1 U圖5:MI300X的緩存和內(nèi)存層級結(jié)構(gòu)圖。
" Z, G+ g0 b$ v7 v% _0 w
5 R4 c) e S* r$ W) ~1 V6 Y6 @1 [Infinity Cache是一個亮點特性,提供256 MB緩存,峰值帶寬達14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。
/ h4 P i; u8 L& Q1 O1 N8 z# t( L2 M. n' y
空間分區(qū)和虛擬化* \9 s* B8 I, s9 q3 w+ \& h0 R
MI300X支持靈活的空間分區(qū),允許將GPU分為多個分區(qū):8 S% b7 t2 [( i
可以分為與XCD數(shù)量相等的分區(qū)支持單根I/O虛擬化(SR-IOV),每個平臺最多64個虛擬功能(VF)支持動態(tài)重新分區(qū)以優(yōu)化工作負載
6 ^$ v4 s# S: e* p
; F$ _! X( D+ ]+ f% C3 J- ]8 a8 n
ggm0g4zyhjz64024938133.png (455.73 KB, 下載次數(shù): 5)
下載附件
保存到相冊
ggm0g4zyhjz64024938133.png
2024-9-30 01:35 上傳
/ \, a+ f' j+ P b; |& D' \
圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負載和虛擬化場景下的靈活性。
+ F- `- N' Q& w, I% o; `. F+ f% L. w, x, y( r# z
AMD Instinct MI300X平臺# S/ Y. o* X2 \) Y- ]. a
MI300X設計為在平臺配置中工作,通常包括:
. l1 m6 t1 F6 l' F8個AMD Instinct MI300X加速器BF16/FP16性能約為10.4 PetaFLOPS總計1.5 TB HBM3內(nèi)存Infinity Fabric帶寬約為896 GB/s8 B- N( M% C5 H5 X
2 g! f4 ~9 d# l, b/ Z4 ^4 t
2 @# z! V2 t. m" m5 q, H
fxyxxvy0tm164024938233.png (281.38 KB, 下載次數(shù): 5)
下載附件
保存到相冊
fxyxxvy0tm164024938233.png
2024-9-30 01:35 上傳
. v, k1 ~' i; K圖7:AMD Instinct MI300X平臺的概覽,展示其作為領先生成式AI平臺的關鍵特性。: q" ]6 ~! ~ K ]) e+ k
) I% ]# l$ n5 A6 x" P5 m
Infinity平臺和生態(tài)系統(tǒng)0 |) ?& t* T9 D
MI300X Infinity平臺通過AMD Infinity Fabric為8個OAM(開放加速器模塊)提供直接連接:
' x4 l# n" h; C7 Y A5 H E七個雙向鏈路,每個帶寬為128 GB/s每個OAM配備PCIe Gen 5 x16,用于服務器連接和I/O192GB HBM用于RDMA(遠程直接內(nèi)存訪問)
- Z- }6 h3 }" W5 a
1 v/ A1 O" b+ [# Y% E
3 h! `* G. B8 \( z5 t
bfmnlzuyiwz64024938334.png (176.31 KB, 下載次數(shù): 5)
下載附件
保存到相冊
bfmnlzuyiwz64024938334.png
2024-9-30 01:35 上傳
/ N. Y; |& K. I圖8:展示了MI300X Infinity平臺的結(jié)構(gòu),說明了多個MI300X加速器之間的互連以及與主機服務器的連接方式。" E6 f9 G: y" W" t. I Q
. P- J" u) E( \! V3 w" ?
該平臺還符合行業(yè)標準并提供高級特性:
/ j" t% X. I# o符合UBB 2.0標準,實現(xiàn)快速部署和無縫數(shù)據(jù)中心集成增強的安全特性,包括SPDM認證全面的RAS(可靠性、可用性、可服務性)特性先進的遙測和固件管理功能( ~" D8 e! t* W
: h8 A) T) m0 K8 x9 y( ^3 c軟件生態(tài)系統(tǒng)& ?/ v/ X) K- W9 T. f% r5 o
AMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):" P( k3 d% }8 I- V0 E
ROCm(Radeon開放計算)平臺用于GPU計算針對AI和HPC工作負載優(yōu)化的庫支持流行的AI框架,如PyTorch和TensorFlow擴展的開發(fā)者工具和運行時環(huán)境. G. `5 f% X2 G& F5 E& w8 _
8 e9 o, a0 P4 l& S5 v
這個軟件棧確保開發(fā)者能在各種應用中高效利用MI300X的能力。* C0 G' Z; V4 [! p; Q/ j
6 W; R7 e0 I9 ], UAI工作負載性能2 j- s3 l% s: i7 V2 [
MI300X在各種AI任務中展現(xiàn)了令人印象深刻的性能:
$ q. c `( h; C% ]Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍Mistral-7B模型的吞吐量高出1.2倍在模型微調(diào)任務中表現(xiàn)出色4 ~$ P% J& E f5 m5 S
& m$ O/ r! H* f& a& @9 |8 I2 Z
+ d+ b" j2 V1 H& j
qdmdth2s0oc64024938434.png (91.95 KB, 下載次數(shù): 5)
下載附件
保存到相冊
qdmdth2s0oc64024938434.png
2024-9-30 01:35 上傳
$ H" R2 |# ?) w& ~5 f* ~2 w圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。6 m5 i' i* ?! T4 Y+ P( n( L
7 z* i& U! J; q; Q
結(jié)論: J- R2 d" v& ?0 k9 T
AMD Instinct MI300X代表了AI和HPC工作負載加速器技術的進步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強大的計算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復雜AI模型需求的不斷增長,MI300X高效處理這些工作負載的能力使其成為推動AI研究和部署的理想選擇。
3 A& Z9 y" A5 i- M2 ?
1 R1 M2 _ p5 S9 p, H憑借靈活的分區(qū)、先進的內(nèi)存系統(tǒng)和強大的軟件生態(tài)系統(tǒng),MI300X完全有能力應對從訓練大型語言模型到加速推理任務的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計算領域推動創(chuàng)新的承諾。" P; N6 U$ p1 r b( K* P3 J7 z# n
; h( W1 _ g8 }- u參考文獻
$ s, y7 C$ s8 a8 p5 c* n* u! y/ _$ B/ j[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.
. P2 l$ k& N0 n; N
& X( i: l' N' x1 N- END -
1 Q* V$ `% o5 p$ J) |% R# J3 r0 c
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。1 c" m5 f2 {7 S! e/ ?
點擊左下角"閱讀原文"馬上申請
$ A5 ^5 _7 ?' c* n
5 _8 q& j' U7 g- E歡迎轉(zhuǎn)載$ T7 @; L& k! Y. E7 R& Y& P+ N2 V
, G x8 I- D+ u$ e/ H轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!/ N l9 N" Y% j) Q
* v# e6 b9 I$ H. t! @% v S" [" W8 N
7 r1 H% F% H4 H% x' k& k
whraycy4pwq64024938534.gif (16.04 KB, 下載次數(shù): 7)
下載附件
保存到相冊
whraycy4pwq64024938534.gif
2024-9-30 01:35 上傳
$ O2 U1 |' o: B3 U# n* i' `9 a8 U- [) U" T/ U
關注我們
6 o2 G9 S6 @# s4 @4 G
# c/ o$ S- f7 X/ Y8 Y( \! m* U& w) p, H8 W( B ~; I
k5tkk1oi1r364024938634.png (31.33 KB, 下載次數(shù): 5)
下載附件
保存到相冊
k5tkk1oi1r364024938634.png
2024-9-30 01:35 上傳
1 K1 s0 S2 h, p1 a | 0 ~: W: e, X* P/ h9 M+ a
an1bh1cylh464024938734.png (82.79 KB, 下載次數(shù): 5)
下載附件
保存到相冊
an1bh1cylh464024938734.png
2024-9-30 01:35 上傳
6 `3 w. t. H+ i( F5 r | 3 G8 `2 C2 ]. y6 |6 q5 y
hktsuthux0d64024938834.png (21.52 KB, 下載次數(shù): 6)
下載附件
保存到相冊
hktsuthux0d64024938834.png
2024-9-30 01:35 上傳
}& v5 W* z, [( \ | $ J3 k% L9 s T f& J
6 @0 m' ^1 H' S+ U
. p; `3 U6 d9 l1 Y( {' n5 z$ E
/ z0 [/ J" }+ d
關于我們:
. F" r- w5 ]# q深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。
7 ?3 k' |/ W. m& K: S4 u' q+ i/ w) w! U, x, W
http://www.latitudeda.com/. ]6 K% i p; z2 u$ B9 E
(點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|