|
引言
$ c. H8 C- q" y" g3 C/ R7 x7 e: G本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。$ G4 E' a; Y! f! _* a
, [* e& n( { d6 G* z3 C
AMD Instinct MI300X簡介) h( {2 F$ m, S5 y- C; s, _
AMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。5 F5 E) {( ]0 h7 \' a
9 R9 |$ D- K0 v: g
q2iowyshnqu64024937633.png (298.57 KB, 下載次數(shù): 1)
下載附件
保存到相冊
q2iowyshnqu64024937633.png
3 小時(shí)前 上傳
! B7 k0 K3 a; I! ~
圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。8 {7 f# Y0 t( O% z% O
% K% L. i. R& \% g6 f) l: t9 G
架構(gòu)概述
- c" |: `* x5 U7 o( yMI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺積電5nm和6nm FinFET工藝制造。0 A0 N; E7 h0 C2 d# K, h$ V
yh3125r1hyw64024937733.png (819.88 KB, 下載次數(shù): 1)
下載附件
保存到相冊
yh3125r1hyw64024937733.png
3 小時(shí)前 上傳
& ?$ w/ n' ?7 @5 E% l. c圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。4 B/ K* h! j5 s5 ^) @2 ~
% d ?) Z# D# f/ Y u) w! dMI300X的主要特性包括:- N. b5 }# Y- A3 Y j; Y
304個(gè)計(jì)算單元1,216個(gè)矩陣核心192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s第四代Infinity Fabric,帶寬高達(dá)896 GB/s
! h* @7 o& c% k" N9 c3 e7 U7 p0 j5 O" v9 K1 l* {; V- }5 k8 X
MI300X的架構(gòu)針對AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。
1 J. e) a2 P, D! q. H- w! O1 \1 i# G- ^9 P: x& K
CDNA 3架構(gòu)改進(jìn)
; X6 s. ?4 Q1 y& {# WCDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
" p' L& k9 I3 y+ s/ ]# s+ B每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性新增TF32和FP8數(shù)值格式支持支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行* V5 u0 e* l8 O% T4 q9 i
- W0 o4 b2 |; G2 O4 B/ y% u$ r v0 f) p T
ogek23y05in64024937833.png (67.16 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ogek23y05in64024937833.png
3 小時(shí)前 上傳
6 A8 p1 y/ A5 E6 E' m" ~* `/ ?4 p" c
圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對比,突顯各種數(shù)據(jù)格式的性能提升。( Y1 c1 u- g( O! F f% C. C
, _1 L7 c. @' g' {7 U
7 s2 y: n* k5 g! @1 X \內(nèi)存系統(tǒng)* h: `6 L+ D! O$ l& |& Z/ o8 l7 y& C
MI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):: {% L v; v3 S! K8 X: \2 j
全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)每個(gè)加速器配備192GB HBM3內(nèi)存5.2 TB/s的內(nèi)存帶寬* e2 S/ C$ O- W( O
% p5 H# f' C W; t# B. |
這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個(gè)MI300X平臺可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。
E# `) V, ~- V/ W- |( N& z
abjx3vckule64024937933.png (71.21 KB, 下載次數(shù): 1)
下載附件
保存到相冊
abjx3vckule64024937933.png
3 小時(shí)前 上傳
}1 n& J* X7 l
圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。
% Y3 W) D5 C( v& r3 d9 Y; ~, p; d
緩存層級和Infinity Cache
+ `1 Z" K( A% G+ qMI300X具有復(fù)雜的緩存層級結(jié)構(gòu):) z' Q3 n1 u- {- T
每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存每兩個(gè)計(jì)算單元共享64 KiB L1指令緩存每個(gè)XCD有4 MiB L2緩存256 MiB Infinity Cache
: n9 Y5 @ Q9 j
% B9 z# q0 X4 f" T4 }. D- [& V5 i6 C# e3 C8 C) V) q! x: Q
4exaqyeliv064024938033.png (308.15 KB, 下載次數(shù): 0)
下載附件
保存到相冊
4exaqyeliv064024938033.png
3 小時(shí)前 上傳
1 [0 w* g( i! o圖5:MI300X的緩存和內(nèi)存層級結(jié)構(gòu)圖。
* g. x b1 d. D' m( Q" u2 s
4 a e7 Y2 S, ^Infinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。
3 A6 ]1 p/ ?0 J% V, h' X7 q5 }3 W0 R4 R/ ?4 G1 ~( }
空間分區(qū)和虛擬化
0 }, ]6 ^# b6 X) y3 H8 BMI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):
' K& [" i, g7 l9 y3 s$ J可以分為與XCD數(shù)量相等的分區(qū)支持單根I/O虛擬化(SR-IOV),每個(gè)平臺最多64個(gè)虛擬功能(VF)支持動態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
2 i! k) U- v- c& f# p( A7 O9 r! Y8 G; B u
1 W7 f [( _6 G( z
ggm0g4zyhjz64024938133.png (455.73 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ggm0g4zyhjz64024938133.png
3 小時(shí)前 上傳
6 n: \. d. m% h' d
圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場景下的靈活性。
0 Y5 N! Q* S* L. `; n" J/ C
/ e: t8 H. m, g0 N: s6 _ p: s7 eAMD Instinct MI300X平臺6 o: E( B* G d6 Q
MI300X設(shè)計(jì)為在平臺配置中工作,通常包括:
' l3 t0 K$ a) Q. a9 f" N8個(gè)AMD Instinct MI300X加速器BF16/FP16性能約為10.4 PetaFLOPS總計(jì)1.5 TB HBM3內(nèi)存Infinity Fabric帶寬約為896 GB/s8 C" |0 x; [) R( Y
5 c5 G' \2 l) L/ [. q/ k/ p0 w4 _( b: `! @" N: Q
fxyxxvy0tm164024938233.png (281.38 KB, 下載次數(shù): 0)
下載附件
保存到相冊
fxyxxvy0tm164024938233.png
3 小時(shí)前 上傳
+ _5 T; x9 M: b* { Q圖7:AMD Instinct MI300X平臺的概覽,展示其作為領(lǐng)先生成式AI平臺的關(guān)鍵特性。
. f3 `0 o1 @9 \7 E) P$ p0 L2 }: {3 e* M. T4 Z" u
Infinity平臺和生態(tài)系統(tǒng)
0 e) w$ m; g* n# c/ N0 hMI300X Infinity平臺通過AMD Infinity Fabric為8個(gè)OAM(開放加速器模塊)提供直接連接:
9 M& o7 A1 B) ~七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)
6 P- R- {0 F# _5 K7 Z" @; L; x D# j; G) S- A% \
# i) a& i# ^- y; i) W
bfmnlzuyiwz64024938334.png (176.31 KB, 下載次數(shù): 0)
下載附件
保存到相冊
bfmnlzuyiwz64024938334.png
3 小時(shí)前 上傳
# O/ n) B: N/ ^
圖8:展示了MI300X Infinity平臺的結(jié)構(gòu),說明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。
( O, z' E" l4 D* d$ u( x1 ^, o, k$ t. Z1 I' C5 ]7 i
該平臺還符合行業(yè)標(biāo)準(zhǔn)并提供高級特性:1 i4 K/ W s; b1 t
符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無縫數(shù)據(jù)中心集成增強(qiáng)的安全特性,包括SPDM認(rèn)證全面的RAS(可靠性、可用性、可服務(wù)性)特性先進(jìn)的遙測和固件管理功能& [0 G- Z5 U) n% k7 B
' \% `% i- l2 o, k軟件生態(tài)系統(tǒng)
; b0 E# L7 y. s5 bAMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):
4 W$ ~% j- d: M$ e- Q+ ~ROCm(Radeon開放計(jì)算)平臺用于GPU計(jì)算針對AI和HPC工作負(fù)載優(yōu)化的庫支持流行的AI框架,如PyTorch和TensorFlow擴(kuò)展的開發(fā)者工具和運(yùn)行時(shí)環(huán)境
7 j7 D) S1 z( L* v3 Y1 ^- J7 ^5 d7 v; k" j) f- f
這個(gè)軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。8 a" j2 w2 J. q+ k; @+ T
# [/ L, w6 C, |* L9 l( I% H* ~! ^
AI工作負(fù)載性能
" C$ f/ s$ T. y4 u( H1 AMI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:
; T2 l# A: U2 o! U# \Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍Mistral-7B模型的吞吐量高出1.2倍在模型微調(diào)任務(wù)中表現(xiàn)出色
! s2 l9 D8 A3 Q) Z0 G
- G/ C& ?: Q' n) z& Q2 ~' F( {4 U9 l( @1 y5 b
qdmdth2s0oc64024938434.png (91.95 KB, 下載次數(shù): 1)
下載附件
保存到相冊
qdmdth2s0oc64024938434.png
3 小時(shí)前 上傳
. Y( r+ W0 x k7 F8 {& l+ A# u2 p
圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。
! o/ ^+ P: w0 u5 }: Y) z* C v
結(jié)論
; \6 ]- W# I( U9 ]5 SAMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復(fù)雜AI模型需求的不斷增長,MI300X高效處理這些工作負(fù)載的能力使其成為推動AI研究和部署的理想選擇。8 U% u# S& T1 @$ K8 T& F7 V
: h- A" x P! p( B
憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對從訓(xùn)練大型語言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動創(chuàng)新的承諾。
. l8 p! r3 y+ j$ ?0 d0 u# ]% ~, D% L" S: Q7 V5 _
參考文獻(xiàn)
, ^- [! d8 X4 ^. i$ }/ l[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.' n/ h+ {2 p2 r2 a
4 T* A5 h0 ]. ]' R. Y
- END -
$ Z6 E6 B7 Z: s! D5 p- `3 \ c5 A# @2 D# _1 V/ l
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。5 v% P( X1 z8 K. `; q1 `
點(diǎn)擊左下角"閱讀原文"馬上申請
5 X( w% W. H$ }0 i# ~. ?( Q5 P5 u9 c" p) d
歡迎轉(zhuǎn)載" h' D5 B- D! t
% k4 T2 ?( d, K8 Y+ P+ d. B轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
$ Z& B, g9 |" w$ ~, _+ c4 I( E) I( b+ {
; x. o2 w0 T+ h$ l r; q7 ~
4 ~$ D* {) q, o2 y' J# m
whraycy4pwq64024938534.gif (16.04 KB, 下載次數(shù): 1)
下載附件
保存到相冊
whraycy4pwq64024938534.gif
3 小時(shí)前 上傳
, p" z1 ?" o7 O. H7 x* p D
2 Y5 F! u4 t1 e6 H關(guān)注我們
/ [- y; u$ e4 J3 l4 c* f. I! S2 U' P
- V. ]7 a+ D2 P C
k5tkk1oi1r364024938634.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
k5tkk1oi1r364024938634.png
3 小時(shí)前 上傳
' C7 A# L/ g/ l+ f6 N |
: c" m, i T. Z* g7 ^
an1bh1cylh464024938734.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
an1bh1cylh464024938734.png
3 小時(shí)前 上傳
0 N/ H) ]: N+ k! k: f6 j5 T
| & W; \5 E6 c1 X0 G" B* N. G% k# y( d
hktsuthux0d64024938834.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊
hktsuthux0d64024938834.png
3 小時(shí)前 上傳
: [6 ?2 p5 N O4 ~' l
| 2 b1 J! V4 i0 e. | M6 t- s
' C5 e; C; U4 [/ G7 T$ y$ s n) F, |' y: ~/ P* z
' C1 @6 E) l& I0 c4 W關(guān)于我們:
% g: a0 |, n' |1 H# C& M. X深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
, M$ v2 \1 E" N4 G8 _8 [; q" p( h: J6 U. \& h
http://www.latitudeda.com/9 u7 h, l$ x% D& P2 `( ~
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|