電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 12|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | AMD Instinct MI300X新一代加速器推動AI和高性能計(jì)算

[復(fù)制鏈接]

367

主題

367

帖子

1931

積分

三級會員

Rank: 3Rank: 3

積分
1931
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:02 | 只看該作者 |只看大圖 回帖獎勵 |倒序?yàn)g覽 |閱讀模式
引言
$ c. H8 C- q" y" g3 C/ R7 x7 e: G本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。$ G4 E' a; Y! f! _* a
, [* e& n( {  d6 G* z3 C
AMD Instinct MI300X簡介) h( {2 F$ m, S5 y- C; s, _
AMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。5 F5 E) {( ]0 h7 \' a

9 R9 |$ D- K0 v: g ! B7 k0 K3 a; I! ~
圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。8 {7 f# Y0 t( O% z% O
% K% L. i. R& \% g6 f) l: t9 G
架構(gòu)概述
- c" |: `* x5 U7 o( yMI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺積電5nm和6nm FinFET工藝制造。0 A0 N; E7 h0 C2 d# K, h$ V

& ?$ w/ n' ?7 @5 E% l. c圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。4 B/ K* h! j5 s5 ^) @2 ~

% d  ?) Z# D# f/ Y  u) w! dMI300X的主要特性包括:- N. b5 }# Y- A3 Y  j; Y
  • 304個(gè)計(jì)算單元
  • 1,216個(gè)矩陣核心
  • 192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s
  • 第四代Infinity Fabric,帶寬高達(dá)896 GB/s
    ! h* @7 o& c% k" N9 c
    3 e7 U7 p0 j5 O" v9 K1 l* {; V- }5 k8 X
    MI300X的架構(gòu)針對AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。
    1 J. e) a2 P, D! q. H- w! O1 \1 i# G- ^9 P: x& K
    CDNA 3架構(gòu)改進(jìn)
    ; X6 s. ?4 Q1 y& {# WCDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
    " p' L& k9 I3 y+ s/ ]# s+ B
  • 每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍
  • 支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性
  • 新增TF32和FP8數(shù)值格式支持
  • 支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行* V5 u0 e* l8 O% T4 q9 i

    - W0 o4 b2 |; G2 O4 B/ y% u$ r  v0 f) p  T
    6 A8 p1 y/ A5 E6 E' m" ~* `/ ?4 p" c
    圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對比,突顯各種數(shù)據(jù)格式的性能提升。( Y1 c1 u- g( O! F  f% C. C
    , _1 L7 c. @' g' {7 U

    7 s2 y: n* k5 g! @1 X  \內(nèi)存系統(tǒng)* h: `6 L+ D! O$ l& |& Z/ o8 l7 y& C
    MI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):: {% L  v; v3 S! K8 X: \2 j
  • 全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)
  • 每個(gè)加速器配備192GB HBM3內(nèi)存
  • 5.2 TB/s的內(nèi)存帶寬* e2 S/ C$ O- W( O
    % p5 H# f' C  W; t# B. |
    這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個(gè)MI300X平臺可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。
      E# `) V, ~- V/ W- |( N& z   }1 n& J* X7 l
    圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。
    % Y3 W) D5 C( v& r3 d9 Y; ~, p; d
    緩存層級和Infinity Cache
    + `1 Z" K( A% G+ qMI300X具有復(fù)雜的緩存層級結(jié)構(gòu):) z' Q3 n1 u- {- T
  • 每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存
  • 每兩個(gè)計(jì)算單元共享64 KiB L1指令緩存
  • 每個(gè)XCD有4 MiB L2緩存
  • 256 MiB Infinity Cache
    : n9 Y5 @  Q9 j

    % B9 z# q0 X4 f" T4 }. D- [& V5 i6 C# e3 C8 C) V) q! x: Q

    1 [0 w* g( i! o圖5:MI300X的緩存和內(nèi)存層級結(jié)構(gòu)圖。
    * g. x  b1 d. D' m( Q" u2 s
    4 a  e7 Y2 S, ^Infinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。
    3 A6 ]1 p/ ?0 J% V, h' X7 q5 }3 W0 R4 R/ ?4 G1 ~( }
    空間分區(qū)和虛擬化
    0 }, ]6 ^# b6 X) y3 H8 BMI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):
    ' K& [" i, g7 l9 y3 s$ J
  • 可以分為與XCD數(shù)量相等的分區(qū)
  • 支持單根I/O虛擬化(SR-IOV),每個(gè)平臺最多64個(gè)虛擬功能(VF)
  • 支持動態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
    2 i! k) U- v- c& f# p
    ( A7 O9 r! Y8 G; B  u

    1 W7 f  [( _6 G( z 6 n: \. d. m% h' d
    圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場景下的靈活性。
    0 Y5 N! Q* S* L. `; n" J/ C
    / e: t8 H. m, g0 N: s6 _  p: s7 eAMD Instinct MI300X平臺6 o: E( B* G  d6 Q
    MI300X設(shè)計(jì)為在平臺配置中工作,通常包括:
    ' l3 t0 K$ a) Q. a9 f" N
  • 8個(gè)AMD Instinct MI300X加速器
  • BF16/FP16性能約為10.4 PetaFLOPS
  • 總計(jì)1.5 TB HBM3內(nèi)存
  • Infinity Fabric帶寬約為896 GB/s8 C" |0 x; [) R( Y

    5 c5 G' \2 l) L/ [. q/ k/ p0 w4 _( b: `! @" N: Q

    + _5 T; x9 M: b* {  Q圖7:AMD Instinct MI300X平臺的概覽,展示其作為領(lǐng)先生成式AI平臺的關(guān)鍵特性。
    . f3 `0 o1 @9 \7 E) P$ p0 L2 }: {3 e* M. T4 Z" u
    Infinity平臺和生態(tài)系統(tǒng)
    0 e) w$ m; g* n# c/ N0 hMI300X Infinity平臺通過AMD Infinity Fabric為8個(gè)OAM(開放加速器模塊)提供直接連接:
    9 M& o7 A1 B) ~
  • 七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s
  • 每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O
  • 192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)
    6 P- R- {0 F# _5 K7 Z" @
    ; L; x  D# j; G) S- A% \

    # i) a& i# ^- y; i) W # O/ n) B: N/ ^
    圖8:展示了MI300X Infinity平臺的結(jié)構(gòu),說明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。
    ( O, z' E" l4 D* d$ u( x1 ^, o, k$ t. Z1 I' C5 ]7 i
    該平臺還符合行業(yè)標(biāo)準(zhǔn)并提供高級特性:1 i4 K/ W  s; b1 t
  • 符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無縫數(shù)據(jù)中心集成
  • 增強(qiáng)的安全特性,包括SPDM認(rèn)證
  • 全面的RAS(可靠性、可用性、可服務(wù)性)特性
  • 先進(jìn)的遙測和固件管理功能& [0 G- Z5 U) n% k7 B

    ' \% `% i- l2 o, k軟件生態(tài)系統(tǒng)
    ; b0 E# L7 y. s5 bAMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):
    4 W$ ~% j- d: M$ e- Q+ ~
  • ROCm(Radeon開放計(jì)算)平臺用于GPU計(jì)算
  • 針對AI和HPC工作負(fù)載優(yōu)化的庫
  • 支持流行的AI框架,如PyTorch和TensorFlow
  • 擴(kuò)展的開發(fā)者工具和運(yùn)行時(shí)環(huán)境
    7 j7 D) S1 z( L* v3 Y1 ^
    - J7 ^5 d7 v; k" j) f- f
    這個(gè)軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。8 a" j2 w2 J. q+ k; @+ T
    # [/ L, w6 C, |* L9 l( I% H* ~! ^
    AI工作負(fù)載性能
    " C$ f/ s$ T. y4 u( H1 AMI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:
    ; T2 l# A: U2 o! U# \
  • Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍
  • Mistral-7B模型的吞吐量高出1.2倍
  • 在模型微調(diào)任務(wù)中表現(xiàn)出色
    ! s2 l9 D8 A3 Q) Z0 G

    - G/ C& ?: Q' n) z& Q2 ~' F( {4 U9 l( @1 y5 b
    . Y( r+ W0 x  k7 F8 {& l+ A# u2 p
    圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。
    ! o/ ^+ P: w0 u5 }: Y) z* C  v
    結(jié)論
    ; \6 ]- W# I( U9 ]5 SAMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復(fù)雜AI模型需求的不斷增長,MI300X高效處理這些工作負(fù)載的能力使其成為推動AI研究和部署的理想選擇。8 U% u# S& T1 @$ K8 T& F7 V
    : h- A" x  P! p( B
    憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對從訓(xùn)練大型語言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動創(chuàng)新的承諾。
    . l8 p! r3 y+ j$ ?0 d0 u# ]% ~, D% L" S: Q7 V5 _
    參考文獻(xiàn)
    , ^- [! d8 X4 ^. i$ }/ l[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.' n/ h+ {2 p2 r2 a
    4 T* A5 h0 ]. ]' R. Y
    - END -
    $ Z6 E6 B7 Z: s! D5 p- `3 \  c5 A# @2 D# _1 V/ l
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。5 v% P( X1 z8 K. `; q1 `
    點(diǎn)擊左下角"閱讀原文"馬上申請
    5 X( w% W. H$ }0 i# ~. ?( Q5 P5 u9 c" p) d
    歡迎轉(zhuǎn)載" h' D5 B- D! t

    % k4 T2 ?( d, K8 Y+ P+ d. B轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    $ Z& B, g9 |" w$ ~, _+ c4 I( E) I( b+ {
    ; x. o2 w0 T+ h$ l  r; q7 ~

    4 ~$ D* {) q, o2 y' J# m , p" z1 ?" o7 O. H7 x* p  D

    2 Y5 F! u4 t1 e6 H關(guān)注我們
    / [- y; u$ e4 J3 l4 c* f. I! S2 U' P

    - V. ]7 a+ D2 P  C
    ' C7 A# L/ g/ l+ f6 N

    : c" m, i  T. Z* g7 ^ 0 N/ H) ]: N+ k! k: f6 j5 T
    & W; \5 E6 c1 X0 G" B* N. G% k# y( d
    : [6 ?2 p5 N  O4 ~' l
                          2 b1 J! V4 i0 e. |  M6 t- s

    ' C5 e; C; U4 [/ G7 T$ y
    $ s  n) F, |' y: ~/ P* z

    ' C1 @6 E) l& I0 c4 W關(guān)于我們:
    % g: a0 |, n' |1 H# C& M. X深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    , M$ v2 \1 E" N4 G8 _8 [; q" p( h: J6 U. \& h
    http://www.latitudeda.com/9 u7 h, l$ x% D& P2 `( ~
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表