|
引言
$ z5 q* P D! a S) {/ f本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語(yǔ)言模型(LLMs)不斷增長(zhǎng)的需求。
$ K& s+ O8 E O! _4 Z; l
$ R2 W! k) Y7 `5 C: w' @9 FAMD Instinct MI300X簡(jiǎn)介7 O7 V% P2 a1 ^
AMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。
w" p) }( ~9 F! G$ p1 K5 J! y
3 e3 v3 t! w( S! h/ a1 e
q2iowyshnqu64024937633.png (298.57 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
q2iowyshnqu64024937633.png
1 小時(shí)前 上傳
& _. O8 e# ?2 @# \# `/ D, `圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。
6 @0 E' D# g0 {! M3 h8 \
0 n1 ~9 [1 F0 s' y. m架構(gòu)概述9 r5 C4 d1 r x- A: o$ `4 I
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺(tái)積電5nm和6nm FinFET工藝制造。
7 k% {1 h; w# ^
yh3125r1hyw64024937733.png (819.88 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
yh3125r1hyw64024937733.png
1 小時(shí)前 上傳
' w( V1 [* \( X* ?* r+ F$ _. u圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。
8 k0 q% }* F9 `% R! e( |. L0 t( d+ s- T2 K8 l! Y/ Q
MI300X的主要特性包括:
z6 p) Q. P" X; z5 U) O P* J304個(gè)計(jì)算單元1,216個(gè)矩陣核心192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s第四代Infinity Fabric,帶寬高達(dá)896 GB/s
. h5 f% Y& z$ G. A U3 k0 k5 y7 L' _, o* Z
MI300X的架構(gòu)針對(duì)AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。
/ t( {) S# C6 k% _( Q) |* \7 G6 F: s$ S z$ ?
CDNA 3架構(gòu)改進(jìn)
/ P0 a' J+ Q# C+ V$ F6 ^) mCDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:5 r# S% ?, x0 p
每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性新增TF32和FP8數(shù)值格式支持支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行
% H7 P" M% v: o7 u) z
4 k+ w- c/ u% N) d5 u! P; P7 t& p+ }& U& {8 L: m& B- _- c# h4 O
ogek23y05in64024937833.png (67.16 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
ogek23y05in64024937833.png
1 小時(shí)前 上傳
) g4 \5 _! f5 a) y圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對(duì)比,突顯各種數(shù)據(jù)格式的性能提升。
! p+ j8 |% ~3 Q& @2 \( ?, N9 Q: M4 ~1 e/ V3 o+ |! x; J
, I. O/ ?1 D2 u' ~% ^0 w' X
內(nèi)存系統(tǒng)
. Q+ L5 S& a, u9 v" N7 A3 LMI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):
8 C4 R" l* R3 J. p5 h全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)每個(gè)加速器配備192GB HBM3內(nèi)存5.2 TB/s的內(nèi)存帶寬
8 |# C& D: [* ^2 R
( ]& J: ?) v( Q" s7 H這種大容量?jī)?nèi)存使MI300X能夠處理比競(jìng)爭(zhēng)對(duì)手更大的AI模型。例如,單個(gè)MI300X平臺(tái)可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。/ F2 p+ Q T% V9 f; R: Y
abjx3vckule64024937933.png (71.21 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
abjx3vckule64024937933.png
1 小時(shí)前 上傳
- ~$ O4 O/ h% h6 g* i
圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對(duì)比。9 T: A' a/ B/ A8 b X
0 t! s5 c% f+ R7 d
緩存層級(jí)和Infinity Cache
5 l) e: m% ]/ D* P4 {+ d$ N' E1 L3 IMI300X具有復(fù)雜的緩存層級(jí)結(jié)構(gòu):
+ K% C' A: u( C9 l1 R7 B每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存每?jī)蓚(gè)計(jì)算單元共享64 KiB L1指令緩存每個(gè)XCD有4 MiB L2緩存256 MiB Infinity Cache
; l' S2 Q v3 ~: H3 F
$ J% [: ?. l5 {' J
8 d* G1 Z( s( n! u' ]
4exaqyeliv064024938033.png (308.15 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
4exaqyeliv064024938033.png
1 小時(shí)前 上傳
0 j# {( r( T; N* `; g圖5:MI300X的緩存和內(nèi)存層級(jí)結(jié)構(gòu)圖。6 ^! ]* w8 s3 R( a
, T- e. z1 Y" hInfinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來(lái)顯著益處。9 ?' @2 Q; m( a' \6 [( A) x
9 i% n* Y8 f+ d空間分區(qū)和虛擬化( q# }2 w+ a, s9 N1 u3 Z
MI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):' @. G$ @7 n3 F4 M D, W
可以分為與XCD數(shù)量相等的分區(qū)支持單根I/O虛擬化(SR-IOV),每個(gè)平臺(tái)最多64個(gè)虛擬功能(VF)支持動(dòng)態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
& v. [8 X `! w: h! R# U9 K$ u5 {) O( B1 V7 F/ l9 k4 m
3 B# X8 n8 r- z1 _
ggm0g4zyhjz64024938133.png (455.73 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
ggm0g4zyhjz64024938133.png
1 小時(shí)前 上傳
+ P2 a& j- C7 h+ V/ R3 i圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場(chǎng)景下的靈活性。
/ E$ O0 _6 \: {, F; q8 C- y: m5 j4 r+ S9 _/ V' c
AMD Instinct MI300X平臺(tái)
6 W$ x* [+ I! z0 T% l1 G7 g8 [% PMI300X設(shè)計(jì)為在平臺(tái)配置中工作,通常包括:; j( ]% Q1 X) [/ b. {( i
8個(gè)AMD Instinct MI300X加速器BF16/FP16性能約為10.4 PetaFLOPS總計(jì)1.5 TB HBM3內(nèi)存Infinity Fabric帶寬約為896 GB/s, G* u E' n% O; I9 p* y& C
; T5 W. F% H) D6 V" f: \+ z9 l+ G( a, Q1 n0 | j
fxyxxvy0tm164024938233.png (281.38 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
fxyxxvy0tm164024938233.png
1 小時(shí)前 上傳
8 ?0 y& ?1 j4 Q7 Y1 _6 B
圖7:AMD Instinct MI300X平臺(tái)的概覽,展示其作為領(lǐng)先生成式AI平臺(tái)的關(guān)鍵特性。
/ c/ B3 J# b h8 v. q) h. ]7 o7 P
Infinity平臺(tái)和生態(tài)系統(tǒng)
$ t+ Q m+ P* V5 \MI300X Infinity平臺(tái)通過(guò)AMD Infinity Fabric為8個(gè)OAM(開(kāi)放加速器模塊)提供直接連接:
9 m0 j4 A/ ?" d' U+ g! N* a七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))/ K4 Z" G1 A7 e r) F u0 o+ Y
$ B+ t2 H8 T$ w) F
( S+ x; n% D; C
bfmnlzuyiwz64024938334.png (176.31 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
bfmnlzuyiwz64024938334.png
1 小時(shí)前 上傳
: @. M& J& [2 G6 k" f% s9 C圖8:展示了MI300X Infinity平臺(tái)的結(jié)構(gòu),說(shuō)明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。. `" b: L Z2 G. U# S. Z3 O
6 R3 y; ]: i" o) N8 L7 E/ r/ e( E
該平臺(tái)還符合行業(yè)標(biāo)準(zhǔn)并提供高級(jí)特性:9 w5 h& D) ~( |
符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無(wú)縫數(shù)據(jù)中心集成增強(qiáng)的安全特性,包括SPDM認(rèn)證全面的RAS(可靠性、可用性、可服務(wù)性)特性先進(jìn)的遙測(cè)和固件管理功能& H2 n7 ]3 q8 _0 z, u: d
+ ^2 T+ M4 d4 t1 d# p0 t' d
軟件生態(tài)系統(tǒng)
6 {" v% k# K, n" X4 d8 OAMD為支持MI300X開(kāi)發(fā)了軟件生態(tài)系統(tǒng):
" Y4 W* m2 V9 q+ f) M* l' R% XROCm(Radeon開(kāi)放計(jì)算)平臺(tái)用于GPU計(jì)算針對(duì)AI和HPC工作負(fù)載優(yōu)化的庫(kù)支持流行的AI框架,如PyTorch和TensorFlow擴(kuò)展的開(kāi)發(fā)者工具和運(yùn)行時(shí)環(huán)境5 ~# d4 x1 S8 J% Z+ y3 j) S
- p6 M" u" A) a* I
這個(gè)軟件棧確保開(kāi)發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。2 a8 I# `7 V: m! o
# P+ V6 t- ~( ^$ I# R, X2 e* J6 IAI工作負(fù)載性能
, b l. q; v( y9 q! S7 d. J% w. O5 rMI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:
7 e' \! r P& Y( M, TMeta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍Mistral-7B模型的吞吐量高出1.2倍在模型微調(diào)任務(wù)中表現(xiàn)出色
9 y# K- k: f+ v! c
* Z* t) Z1 z2 x& `7 r A1 A% J. z# }, t1 D3 `) v! }
qdmdth2s0oc64024938434.png (91.95 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
qdmdth2s0oc64024938434.png
1 小時(shí)前 上傳
( T+ A, K1 r% W8 j6 k9 m
圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對(duì)比。* N4 G, Q" r8 {3 b* z' L
& x- a7 _$ z: y" j
結(jié)論6 v- G# n& o8 D. K, W/ q
AMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量?jī)?nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場(chǎng)的有力競(jìng)爭(zhēng)者。隨著對(duì)更大、更復(fù)雜AI模型需求的不斷增長(zhǎng),MI300X高效處理這些工作負(fù)載的能力使其成為推動(dòng)AI研究和部署的理想選擇。) O! ?' f7 h9 c& p
1 E( j- |# W# X5 a
憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對(duì)從訓(xùn)練大型語(yǔ)言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動(dòng)創(chuàng)新的承諾。
2 l+ O- }- z' E z% z( t$ _" N9 a u E, t( f0 s+ `
參考文獻(xiàn)- O7 {3 q$ E9 w R+ `+ d4 ]7 i! u
[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.
2 b; | d+ T" G
, m% Y" a# O) x) O- {+ F- \- END -
* o3 F: M7 Q( I$ ]# U
$ v5 \) k# ]7 H" K) _% d! |軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。, b$ J5 f3 y( V2 W$ Q
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng). u& M5 `7 n8 l; h4 c' Q' ?
. X g/ k2 b/ b2 \! p9 ^
歡迎轉(zhuǎn)載! `8 t" T6 P( \$ `! X h
$ Y' J, N" m7 Q$ Y9 o. [
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
2 u& z/ W9 a/ s8 S) g7 e$ o* ~% ~4 d7 b
: Y1 \/ d" j) u6 R: z* R4 E$ Q0 s4 {9 J- [" c, t6 E9 X! v& r* p* N
whraycy4pwq64024938534.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
whraycy4pwq64024938534.gif
1 小時(shí)前 上傳
0 ^7 m i- y% D" S U+ r
6 L$ j- ]) T( F& n$ e: [. W" E關(guān)注我們
e% L) F3 i) O7 a" Y& f5 M! u" k8 @9 o6 R# `
7 x+ W) m2 y$ K# c# r
k5tkk1oi1r364024938634.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
k5tkk1oi1r364024938634.png
1 小時(shí)前 上傳
: R# w6 Y l2 f
|
& i$ C' G; b$ ?
an1bh1cylh464024938734.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
an1bh1cylh464024938734.png
1 小時(shí)前 上傳
- e7 p( e) [" ]. F# }' A1 I
| 3 w7 e2 Y1 X" [ g9 y3 X
hktsuthux0d64024938834.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
hktsuthux0d64024938834.png
1 小時(shí)前 上傳
* j- o' |4 X6 `/ l2 c* G |
* y1 P3 W3 I8 M
& x; p3 s7 k2 C9 F# i
$ B0 }, C O( T
/ M4 w" T a1 ^) y$ Z: i6 h關(guān)于我們:
/ Y1 q( v2 ^3 U深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
5 V( Q$ ?$ R4 ?6 n4 L# U3 r: k0 a% q
http://www.latitudeda.com/
( e: j0 Y4 f7 W2 u(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|