電子產業(yè)一站式賦能平臺

PCB聯(lián)盟網

搜索
查看: 78|回復: 0
收起左側

AWS Trainium2 架構與網絡技術

[復制鏈接]

686

主題

686

帖子

5863

積分

四級會員

Rank: 4

積分
5863
跳轉到指定樓層
樓主
發(fā)表于 2024-12-6 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言1 `+ s' _- E! A# q+ ~. R: e0 k& F
Amazon 在人工智能加速器領域正在通過其 Trainium2 芯片架構取得進展,旨在與 NVIDIA 在人工智能訓練和推理領域展開競爭。本文將詳細探討 Trainium2 的架構、網絡功能和成本等關鍵方面[1] 。
2 q: t% p7 a+ }, r+ ~8 E $ O0 _, [; h8 ^6 T% A, f
7 R7 `2 n) b0 c
0 Q! k& w  d0 W$ T, V
圖1:展示 AWS 硬件執(zhí)行 AI 工作負載的藝術表現(xiàn),象征著 AWS 對 AI 加速的投入。( \3 ~* D; T, T* k# _: a

$ F- p/ E; L+ ~核心架構概述9 ?( ^+ {" ^0 @+ ?- d
Trainium2 架構相比前代產品有顯著提升,每個芯片提供 650 TFLOP/s 的密集 BF16 性能,配備 96GByte HBM3e 內存。每個 Trainium2 芯片包含兩個計算 chiplet 和四組 HBM3e 內存,通過 CoWoS-S/R 封裝連接。% K: N2 L$ h' e+ X1 O
- `" r! h' [& x' |% i. {# M
圖2:NeuronCore-v2 的詳細架構,展示了張量引擎、向量引擎、標量引擎和 GPSIMD 引擎與 HBM 內存的集成。2 a) F9 k  P  P) e0 g' A8 F1 m8 q

) ]: Z, S* z1 z% F2 A1 h3 Z神經核心架構包含四個主要引擎:
3 \" @$ m3 n! i' E0 c: F張量引擎:128×128 脈動陣列,用于矩陣運算4 \0 L! x# j2 u7 i) B
向量引擎:處理向量運算和歸一化# k; \6 L( p# z5 Z- n
標量引擎:管理按元素運算
3 q7 ^- R; g# V7 m6 c& OGPSIMD 引擎:執(zhí)行任意 C++ 運算3 @+ W9 g. b4 o4 ^; {, W; }% a
7 R: o% f* H* w8 t4 H1 N; c$ j
服務器架構與部署
2 J# o) Y" }2 `Trainium2 提供兩種主要規(guī)格:
% E) ^- m: u# E9 K7 F) o" v# x- N2 A$ hTrainium2 (Trn2):每服務器16個芯片配置" T6 ?3 w/ o8 v2 `% G8 E
Trainium2-Ultra (Trn2-Ultra):跨四臺服務器的64個芯片7 J4 \; L* u& D! @7 @( N" d0 f

2 W% |3 j4 O' _# ~- j8 _) h4 |
+ {1 q4 x" I9 q- e; W+ c圖3:Trainium2 服務器架構,展示了計算托盤和 CPU 頭托盤在18機架單元中的排列。
8 n# A8 H5 F' }8 o4 B' f2 }8 X- a# Q3 `4 Q7 y+ J
物理服務器架構占用18個機架單元,包括:
! s% O5 d, w$ R  x: j一個 2U CPU 頭托盤% a/ f2 v+ D- O0 u2 t4 h1 v
八個 2U 計算托盤. }+ Q) @: Z# u6 i, @) d
每個計算托盤包含兩個 Trainium2 芯片4 e7 C; ~5 Z: n7 r
計算托盤中沒有 CPU(JBOG - "僅GPU組")
0 K( \5 K3 R9 Y6 u. h/ w0 T

6 z' Q& y6 g8 R8 K: C$ C網絡功能0 A% t9 Y  e6 Z8 U
Trainium2 的網絡基礎設施整合了多項技術:
% I/ y/ J9 [' X. J; Q# F- tNeuronLinkv3(擴展上行網絡)
! T) A& d2 G8 F彈性 Fabric 適配器 EFAv3(擴展出口網絡); w5 e9 _  t7 u2 p2 W
前端和存儲網絡0 C7 O' M+ w8 t$ P; A0 w
帶外管理網絡& m. T4 d9 }% F, q( p  X

3 U8 M& R7 C: P3 F2 ]$ S 8 N( Y) L( W1 e6 k- ^! x- u
圖4:4x4x4 三維環(huán)形網絡拓撲,顯示節(jié)點間連接和帶寬規(guī)格。
' N6 a$ p* r' b7 A( s& ?! S' g3 @9 z
供電創(chuàng)新3 q: x/ X' ]" g+ m+ t  ?: |* h
Amazon 在 Trainium2 中實施了垂直供電,這在芯片供電管理方面是重大進展。8 j4 z# y& _( J1 E5 E

8 X& N3 x8 ~6 G, _8 B3 i圖5:傳統(tǒng)與垂直供電系統(tǒng)的比較,展示了改進的供電效率和散熱管理。6 ?1 Y& \5 N! D) j4 N% F& ]
$ f$ H3 i9 N8 {1 q  p
成本分析與性能
4 c1 _/ K# u+ p1 \; U與 NVIDIA 的 H100 相比,Trainium2 的總擁有成本顯示出有利的經濟性:3 r3 c0 ]  z$ l- h5 D# j' t0 f4 \5 s

, _( s/ a8 I  a  v" _: b' U圖6:Trainium2 和 H100 配置的詳細成本比較,突顯了 AWS 解決方案的經濟優(yōu)勢。, {% a; ^6 M) e, _' X3 i& c! Q% b
! J/ K$ a$ a; z8 R* u
主要經濟因素包括:3 T  j- [" ^( j2 s/ e: U
較低的前期資本成本(每芯片4,000美元,相比H100的23,000美元)! c% @( f3 [" W  N0 ]
由于更好的能效而降低運營成本" Q. m2 G# X5 q% z
在部署生命周期內更有利的總擁有成本
1 ^! @- Q5 K$ V

; }" M# _( i0 a: A" u- r6 X! nProject Rainier 實施/ t: O) A) B. I7 H- ^+ P. G
AWS 目前正在為 Anthropic 部署一個名為"Project Rainier"的大型集群,配備40萬個 Trainium2 芯片。該部署展示了 Trainium2 可以有效運行的規(guī)模。# |) b+ O- b1 O  n/ Y
3 ~' U* H5 }7 X5 \0 j& I! S
圖7:AWS 印第安納數(shù)據中心園區(qū)的空中視圖,Project Rainier 正在此處部署。4 }- a3 p" J" ^- v$ d& c5 c
" W6 b8 J( k4 F
軟件棧與開發(fā)工具9 f+ U) u, ?; A/ [/ U6 M
Trainium2 的軟件生態(tài)系統(tǒng)包括:6 J' W& Q; ]- K& }+ S% R/ p) u
NeuronX 集體通信庫
7 u/ z( M+ S6 B通過 TorchDynamo 的 PyTorch 集成
8 ^9 s! O# Y' U( n8 m7 p3 L$ h" X: ]JAX 測試版支持
3 E7 O* {' s) l; P2 E用于低級優(yōu)化的 Neuron 內核語言(NKI)+ C, n" W, }, z: f

& s3 y- k; C7 I" K
. {( z* i/ q3 w' x0 u) a! w  y) [圖8:Neuron 分布式事件追蹤界面,顯示全面的調試和分析功能。8 W- E$ j. A2 d8 {, o

8 {$ K( m' @! d  w& T1 f未來發(fā)展
; @" ]  T, C; DTrainium2 代表了 Amazon 在 AI 加速器領域的重要投入。憑借具有競爭力的價格和性能特征,對 NVIDIA 在 AI 訓練市場的主導地位構成了顯著挑戰(zhàn)。Project Rainier 的成功和 Anthropic 的采用將是 Trainium2 實際效果的重要指標。
* |( G) R3 m1 K/ s6 g
& @: u$ X5 a3 W: ^: h) O: w7 F圖9:下一代供電架構,展示了 AWS 對未來可擴展性和效率的投入。
1 p6 ~5 |' r8 {! G1 u* F! C* R6 F1 f' U. ]9 S
通過對供電、網絡功能和軟件集成的嚴密關注,AWS 創(chuàng)建了一個有競爭力的平臺,解決了現(xiàn)代 AI 加速中的許多挑戰(zhàn)。該平臺的發(fā)展將可能影響 AI 硬件開發(fā)和云服務供應商策略的未來方向。
0 u! J4 y" }+ }) `  u4 ^# m9 y# B2 f1 _& L) \
參考文獻
3 e% b- p% \7 H  a[1] D. Patel, D. Nishball, and R. Knuhtsen, "Amazon's AI Self Sufficiency | Trainium2 Architecture & Networking," SemiAnalysis, Dec. 3, 2024. [Online]. Available: https://semianalysis.com/2024/12/03/amazons-ai-self-sufficiency-trainium2-architecture-networking/" i+ w0 F7 g+ b' l1 G- Y2 h
# @' Z6 P7 `9 F2 ^6 j8 |7 |$ L1 a
END
) h5 R) C4 N/ k% s

& U  ~" _& f4 ]
* N$ @# _% G0 u軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。- s& }, R) X5 [# `( ]5 p; ]0 X
點擊左下角"閱讀原文"馬上申請
( ]: ]4 f& t+ |2 R2 @8 }" n" p; j
歡迎轉載
0 {; y5 l. @& |8 j0 k1 F) C: X: j% M
轉載請注明出處,請勿修改內容和刪除作者信息!
$ H4 J' L, [$ d
  U, \- F  Y7 N8 p( d: l# Q" D7 i& t9 S0 n6 W9 h
1 E- O/ }( k- b  L/ }* f1 y
0 h: {( {! T" `
1 W# T' V* x$ a% K6 S
關注我們9 ^$ p- Y+ t; p: _: R

0 l7 ^/ o" F- V3 Y4 \( \9 L
5 m+ I" z& i, v4 K  q! e2 `0 p

: z7 V; I% e! z" Z
+ @7 F, l( a1 h2 [* n2 P

  ?7 [5 ]/ V2 }1 u1 D

& e0 T1 ^- c2 u 8 T. |6 J( k- p/ |; {- ~+ _' l
                     
7 C$ h' \! K* u/ k8 k( q/ L# A  x; f7 r( z
5 c7 |- p" m; J$ k; X$ N

* `5 I% q9 K( w7 W( y# y; z關于我們:
4 F) b) U: C& C深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。1 T. G. d9 S2 e0 l: J. y: q$ i
" c$ ]) l% u0 d: z% J" w) N
http://www.latitudeda.com/
- P. L6 H" B" `) x(點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內容)
回復

使用道具 舉報

發(fā)表回復

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規(guī)則


聯(lián)系客服 關注微信 下載APP 返回頂部 返回列表