|
引言
P5 Z- @' ^) v1 z6 ~* x本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。& j6 i, g6 h) r$ S3 [
3 m" O& r& `; c2 }2 Z9 ^/ Z1 ?; J- N7 U
AMD Instinct MI300X簡介
) S9 b2 U& O- o5 h y) SAMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。
3 K/ ] @3 M3 H, D" z; h! L, o" T/ v1 |' x6 ~& Y) C: X* u: }) N
q2iowyshnqu64024937633.png (298.57 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
q2iowyshnqu64024937633.png
5 小時(shí)前 上傳
3 S1 Z' D1 M& h圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。
( m! Z! `# f* A! ]
5 ]8 R! ?5 F( W; J! L架構(gòu)概述9 f& k, G, J! ?4 L( O
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺(tái)積電5nm和6nm FinFET工藝制造。5 q) f" N0 M9 R0 m
yh3125r1hyw64024937733.png (819.88 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
yh3125r1hyw64024937733.png
5 小時(shí)前 上傳
6 c: N8 m2 }, h6 \% S5 l
圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。
0 j/ b u& m! T6 X9 v) T% @0 @+ _- c% B& H% t) u* [ B- K. O
MI300X的主要特性包括:
9 f5 R3 w1 n0 \- [7 t$ q% u/ I# ?304個(gè)計(jì)算單元1,216個(gè)矩陣核心192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s第四代Infinity Fabric,帶寬高達(dá)896 GB/s9 h$ l; O# E6 |* ^% M# ?2 B1 N
0 \, n* D, J! x2 n: _MI300X的架構(gòu)針對(duì)AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。
5 D5 C% C/ s6 x1 [4 Y& J% R' a# q
% ^3 ?3 ^4 }+ t/ x% Y4 f! oCDNA 3架構(gòu)改進(jìn)
% D3 Z8 a- d7 E( g; j% Q$ CCDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
3 ?- \. |- ?" l* Q/ F3 w每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性新增TF32和FP8數(shù)值格式支持支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行% W- C. y$ x/ [5 C- Q O8 s" |
I" t2 c1 w; x& k2 J% ^0 U! r
0 f/ X% u! C6 c4 X5 Q* g+ Q
ogek23y05in64024937833.png (67.16 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
ogek23y05in64024937833.png
5 小時(shí)前 上傳
. P9 u0 ^0 }; R7 L; M. a- N
圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對(duì)比,突顯各種數(shù)據(jù)格式的性能提升。' w3 e* U' i7 Q" s0 M
3 _) A; h. m: p; ]5 ]
|. k0 C( P. e
內(nèi)存系統(tǒng)0 Q; V% @, F, D' X% U: q
MI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):
' M3 r% M. L& R全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)每個(gè)加速器配備192GB HBM3內(nèi)存5.2 TB/s的內(nèi)存帶寬
6 {; e* K! P, t
( |* w) p- S& L( q$ d. m' N這種大容量內(nèi)存使MI300X能夠處理比競爭對(duì)手更大的AI模型。例如,單個(gè)MI300X平臺(tái)可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。
6 T, v) ~8 q1 h
abjx3vckule64024937933.png (71.21 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
abjx3vckule64024937933.png
5 小時(shí)前 上傳
* D+ d4 v# ?4 t E7 ?' V5 w! K8 m圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對(duì)比。
, |, ~( Y ]* t6 q6 t7 W1 d) Z( A( F! b# `7 l& [, D
緩存層級(jí)和Infinity Cache
9 e8 N1 K+ s+ |9 l- N, ?8 U/ HMI300X具有復(fù)雜的緩存層級(jí)結(jié)構(gòu):4 C- `4 t# f2 l/ ]4 K& H
每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存每兩個(gè)計(jì)算單元共享64 KiB L1指令緩存每個(gè)XCD有4 MiB L2緩存256 MiB Infinity Cache
: P% n$ b5 ~: P; Z+ \( z& i; `) s4 @
+ i1 F$ e& [' j m% ], q& [9 ?
4exaqyeliv064024938033.png (308.15 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
4exaqyeliv064024938033.png
5 小時(shí)前 上傳
* ]3 c5 \, @9 f) e6 F) h' @圖5:MI300X的緩存和內(nèi)存層級(jí)結(jié)構(gòu)圖。( S' a2 o. T4 F4 `( \
8 V: q0 v' I7 o, ?6 c# ]Infinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。& \% X. q1 B# D7 b" F; [
: e6 h, A4 b. L3 `% j7 n1 v空間分區(qū)和虛擬化
; u% a. ~( H8 M" H2 t5 `MI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):& L! I C# F2 T2 @- {
可以分為與XCD數(shù)量相等的分區(qū)支持單根I/O虛擬化(SR-IOV),每個(gè)平臺(tái)最多64個(gè)虛擬功能(VF)支持動(dòng)態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
4 N4 _) {1 R8 s8 `! h5 ?
7 u K; A K" a3 c0 C1 w& h
3 q# S' M4 @+ ^- I$ ~9 Y; t" p" T
ggm0g4zyhjz64024938133.png (455.73 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
ggm0g4zyhjz64024938133.png
5 小時(shí)前 上傳
* s8 b% M: ?4 X/ N- I2 h7 [圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場景下的靈活性。1 P- ~, J. l! {3 p
1 G. s" Q. L' Q' x/ Q- l, Z+ O" Z1 oAMD Instinct MI300X平臺(tái)& L, p( P3 o5 o, }) x+ Z! C3 \( R
MI300X設(shè)計(jì)為在平臺(tái)配置中工作,通常包括:
! V; }1 s" b. O3 |8個(gè)AMD Instinct MI300X加速器BF16/FP16性能約為10.4 PetaFLOPS總計(jì)1.5 TB HBM3內(nèi)存Infinity Fabric帶寬約為896 GB/s
$ ]. i& e5 D1 B! e( W2 L: G5 f0 @, _, c1 |( q
/ |9 X- ^ k, w7 D
fxyxxvy0tm164024938233.png (281.38 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
fxyxxvy0tm164024938233.png
5 小時(shí)前 上傳
, f4 o) E, g% ^2 ~+ }圖7:AMD Instinct MI300X平臺(tái)的概覽,展示其作為領(lǐng)先生成式AI平臺(tái)的關(guān)鍵特性。4 Q' p+ s- d# w8 b8 H5 i, J- y
0 M& r; i K8 C6 b4 b7 qInfinity平臺(tái)和生態(tài)系統(tǒng)7 y/ L Q/ m$ n. ~( g% ]
MI300X Infinity平臺(tái)通過AMD Infinity Fabric為8個(gè)OAM(開放加速器模塊)提供直接連接:1 f9 @) `. w3 k% V9 I& M$ o
七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)
1 T7 @* h- `) v6 n( D& d
5 w, e* ]% u: w, r2 J1 E0 H: Q* a8 Y0 ?3 t* }8 n% o
bfmnlzuyiwz64024938334.png (176.31 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
bfmnlzuyiwz64024938334.png
5 小時(shí)前 上傳
, q- o/ l. c) I8 A5 m8 r( E圖8:展示了MI300X Infinity平臺(tái)的結(jié)構(gòu),說明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。( @0 ?' ]/ g+ }( `- Q' _2 ~
5 s: G9 o/ }/ k8 N該平臺(tái)還符合行業(yè)標(biāo)準(zhǔn)并提供高級(jí)特性:' H1 C/ K4 X' L* D
符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無縫數(shù)據(jù)中心集成增強(qiáng)的安全特性,包括SPDM認(rèn)證全面的RAS(可靠性、可用性、可服務(wù)性)特性先進(jìn)的遙測(cè)和固件管理功能+ n! J8 e7 C7 }# a) x4 m% ~
/ h3 B; b1 T+ e' o A
軟件生態(tài)系統(tǒng)
& K3 K3 a* g; @, \5 g8 l* [" r$ @- n* [7 TAMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):
1 |( o1 B/ F& {; Z9 GROCm(Radeon開放計(jì)算)平臺(tái)用于GPU計(jì)算針對(duì)AI和HPC工作負(fù)載優(yōu)化的庫支持流行的AI框架,如PyTorch和TensorFlow擴(kuò)展的開發(fā)者工具和運(yùn)行時(shí)環(huán)境
3 ]4 J( t# A1 H/ |* l6 ^4 Q1 c: r7 K/ J
這個(gè)軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。
/ j4 {" Q, J: U, W7 o
& X' W* f$ Y6 D$ y) oAI工作負(fù)載性能
* R/ d9 S* k' e1 s# `MI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:
) Y8 Q8 j" i0 YMeta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍Mistral-7B模型的吞吐量高出1.2倍在模型微調(diào)任務(wù)中表現(xiàn)出色
$ F& a( H% n2 Y, X; G
5 [- R7 b7 K3 h$ {7 j' l6 Y; A+ y* h3 I
qdmdth2s0oc64024938434.png (91.95 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
qdmdth2s0oc64024938434.png
5 小時(shí)前 上傳
, f% @7 z6 ]4 y7 `0 o
圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對(duì)比。$ I# y! T$ q+ R0 S0 b9 d
/ ?$ p7 i' a5 `結(jié)論
3 [4 R" ? n* l$ R/ {AMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場的有力競爭者。隨著對(duì)更大、更復(fù)雜AI模型需求的不斷增長,MI300X高效處理這些工作負(fù)載的能力使其成為推動(dòng)AI研究和部署的理想選擇。
9 @9 C, b( z; G7 z- a& Y& I4 t4 z4 t6 n J
憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對(duì)從訓(xùn)練大型語言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動(dòng)創(chuàng)新的承諾。
% r7 o4 o' O3 f- F$ F# N, w9 K; \ {% F* y$ ]" A$ O# K
參考文獻(xiàn)7 ^2 N! f. ^, O
[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.! a" g- U! E5 I
% f# D# p! L" ~/ E: z6 q r
- END -
# w \ e1 K' t# j7 x; \
% C+ e& b. L+ k8 Z: Q8 k軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
% j! a" R4 h8 I1 c6 m點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)! {, }; c: q; O- ~+ d* L7 f
$ o- n3 T# R, k- R
歡迎轉(zhuǎn)載
9 `/ ^) c; q4 l9 z& T/ h
$ L/ q8 F" |& O! `6 v0 W轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
/ L5 V+ \- E" K4 G& Q! H; n) d5 b: Q* O
2 L0 U4 h* I& Y# I) N o4 `1 |$ m
, k- e" E. A" e. q( a! J
whraycy4pwq64024938534.gif (16.04 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
whraycy4pwq64024938534.gif
5 小時(shí)前 上傳
4 V! p2 {& [! N
/ w e, X6 T1 S9 l& ~- k關(guān)注我們- e5 D; S1 Z- y* o" d7 A
/ Q; Q# a. D/ b7 t+ N$ r/ ~' I
* N1 D m4 N8 H7 N1 v1 A9 X1 ^
k5tkk1oi1r364024938634.png (31.33 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
k5tkk1oi1r364024938634.png
5 小時(shí)前 上傳
2 N5 t! H. S% J5 b
|
1 b' W$ Y X) ~4 C* @' o
an1bh1cylh464024938734.png (82.79 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
an1bh1cylh464024938734.png
5 小時(shí)前 上傳
# k' ^' o9 g) t( s+ }8 Q |
% c- N9 x: q( b2 j) Z* u" t! ~
hktsuthux0d64024938834.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
hktsuthux0d64024938834.png
5 小時(shí)前 上傳
5 E* Z% q) _# [$ K |
% M1 ~8 E" d* b
# _7 p( l) @$ a6 ?2 ?/ t/ Y0 l- }% |1 L+ D/ u
, c- i9 x, x) @% A
關(guān)于我們:
* a) \7 H* R8 s0 c1 U! U深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。! ?- \6 S+ T& i5 M& y6 p
, l/ Q4 f7 K) B$ ^% z
http://www.latitudeda.com/
+ B1 ^3 y/ m8 ` I/ w! @! S% R(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|