|
引言
4 q9 l. t: J0 P* X u8 K人工智能(AI)已成為現(xiàn)代技術(shù)的基石,推動著各個領(lǐng)域的創(chuàng)新。隨著AI模型日益復(fù)雜和規(guī);,對更強大、更高效的計算系統(tǒng)的需求也在不斷增加。在這些先進(jìn)的AI系統(tǒng)中,組件之間的互連性是一個關(guān)鍵方面,尤其是在AI集群中。本文探討了AI集群中光連接的特殊要求,重點關(guān)注下一代AI計算架構(gòu)的挑戰(zhàn)和潛在解決方案[1]。$ I6 F# A7 N6 k
lzyar5xasm264046210415.png (320.89 KB, 下載次數(shù): 1)
下載附件
保存到相冊
lzyar5xasm264046210415.png
2024-12-1 02:25 上傳
W0 L) `6 L& V* s3 i$ R% `: I- V Q! ?! x8 c9 ^
理解AI計算鏈路
+ ]9 y2 S; j0 u' T& X在AI集群中,不同類型的鏈路連接著系統(tǒng)的各個組件?梢愿鶕(jù)功能、距離和性能要求對這些鏈路進(jìn)行分類。3 F1 e: @0 C8 l* b, ~. @& R
lfrovmpio1f64046210515.png (271.58 KB, 下載次數(shù): 0)
下載附件
保存到相冊
lfrovmpio1f64046210515.png
2024-12-1 02:25 上傳
) [; p7 k' q) h
圖1展示了AI計算架構(gòu)的示例,突出顯示了不同類型的鏈路,包括前端網(wǎng)絡(luò)、后端計算和本地加速器互連。
' @1 I" `( V1 {
$ U V: Y D# s3 T9 @* \AI集群中的關(guān)鍵鏈路包括:
3 }+ p e( v, O$ ^0 r/ L" Q1. 遠(yuǎn)程加速器鏈路:這些連接跨越100米或更長的距離,通常使用以太網(wǎng)(UEC)或InfiniBand協(xié)議。由于涉及的距離較長,已經(jīng)在使用光技術(shù)。
! ^; n$ ?, q' F: N6 J2. 本地加速器鏈路:覆蓋1.5米或更長的距離(未來可能減少到10米以下),目前使用PCIe、CXL、UALink或NVLink等協(xié)議。主要基于銅線,但正在開始向光解決方案過渡。
$ K% N. E. ]8 M7 \( y3. 高帶寬內(nèi)存(HBM)鏈路:這些是非常短距離的連接(約1厘米),使用HBM3或HBM3E等協(xié)議。需要極寬的接口,對延遲非常敏感。
% [; h. v* R/ g+ r. d M4 _5 w, c
4 b+ v# A. M1 [; `3 T本地加速器鏈路:創(chuàng)新的焦點 @6 b1 e5 b% q3 G
本文主要關(guān)注本地加速器鏈路,因為在AI集群中,這些鏈路呈現(xiàn)出獨特的挑戰(zhàn)和改進(jìn)機會。$ ]' i5 s. b4 x/ D; ]) x: s
' X/ }" U! N( j本地加速器鏈路的現(xiàn)狀3 X; L' I. z! z j' ?& b
jmhhmfyhsrf64046210616.png (343.72 KB, 下載次數(shù): 1)
下載附件
保存到相冊
jmhhmfyhsrf64046210616.png
2024-12-1 02:25 上傳
; r0 m" y1 r% U& m/ o" C圖2描繪了當(dāng)前最先進(jìn)的系統(tǒng),使用200G的銅基連接,顯示了擴展電纜和NVLINK交換卡。
$ h( o2 Y6 D2 G# w9 Z( B" M* ~8 n) {' L% W
最先進(jìn)的AI系統(tǒng)目前在本地加速器鏈路中采用200G的銅基連接。機架內(nèi)連接是無源的,有助于降低功耗和延遲。然而,隨著AI系統(tǒng)的不斷發(fā)展,需要至少將互連帶寬翻倍,同時延長傳輸距離并連接更多的加速器。
; T x" M* @: G0 Z/ {& \
F; `7 S3 o3 |8 E9 M例如,當(dāng)前系統(tǒng)可能具有:
- b [: N# `( h1 Z, B5 _1 |% F每個GPU 72個數(shù)據(jù)路徑每個GPU 7.2 Tbps帶寬每個機架5,184個數(shù)據(jù)路徑& R& f$ M3 v2 Z) D; S
& r# q; z$ ?% s7 }. _. L
未來的GPU預(yù)計需要:
: j2 n8 o# ^( N9 o2 s6 c每個GPU 51.2 Tbps每個系統(tǒng)72個GPU每個GPU 512個數(shù)據(jù)路徑,速率為200G(發(fā)送和接收)每個機架36,864個數(shù)據(jù)路徑+ s1 a% @, ?1 A
P; s8 v: {: S
這種帶寬和連接需求的顯著增加對銅基解決方案構(gòu)成了挑戰(zhàn),可能難以高效滿足。/ l+ n6 H/ M; Y
% {% ^) i- | V. m7 Q) c3 r0 K
本地加速器鏈路的特殊特性* S) j* n* a% O# U3 i1 j8 R
本地加速器鏈路具有獨特的特性,使其區(qū)別于AI集群中的其他類型連接:" P b* `* \2 j0 u1 a5 t6 R6 n
& P: I" Q; f# m& N
, I" X* ^5 U; N" T1. 協(xié)議適應(yīng):大多數(shù)本地加速器鏈路基于PCIe協(xié)議,該協(xié)議最初是為銅連接設(shè)計的。將此協(xié)議適應(yīng)光鏈路需要解決幾個挑戰(zhàn):* e7 I& S; L4 d3 V: i
修改接收器檢測、側(cè)帶、電氣空閑、超時、低頻信號和擴頻時鐘等方面。
3 K* V- e1 Q$ D* F業(yè)界采取兩步法:首先保持向后兼容性,然后定義一個適合光的協(xié)議。
) a) ]" u, x! G x9 E5 P" w3 B- f. M- k7 M: ?5 e- z
2. 更嚴(yán)格的比特錯誤率(BER)要求:本地加速器鏈路要求最大幀錯誤率(FBER)小于1e-6,比典型的以太網(wǎng)要求更嚴(yán)格。然而,這可以通過當(dāng)今的集成光技術(shù)實現(xiàn)。
2 A6 N& y, Q3 n$ X) u- G1 W; f1 F! g7 T, A6 j* \) F
3. 嚴(yán)格的延遲和功耗效率目標(biāo):這些鏈路需要滿足非常苛刻的延遲和功耗效率要求。前面提到的"第二步"協(xié)議旨在解決這些需求。
8 b2 M2 K) ? H# B# Y6 F! X2 d+ f1 j# z" w: C* U: L
4. 互操作性和可擴展性:確保不同組件之間的互操作性以及支持具有高基數(shù)(端口數(shù))的大型集群很重要。' z, h( u5 e3 U
4xosdnfmhvq64046210716.png (235.47 KB, 下載次數(shù): 0)
下載附件
保存到相冊
4xosdnfmhvq64046210716.png
2024-12-1 02:25 上傳
$ h* s; c& h) d- v& `2 G圖3顯示了PCIe協(xié)議向光鏈路演進(jìn)的過程,說明了當(dāng)前的銅基方法和兩個步驟朝向適合光的協(xié)議發(fā)展。2 @4 `! n1 g5 e; k$ _
9 t8 h# @$ ^9 g0 V
硬件可靠性考慮
! U# @: a+ J+ V3 H可靠性是AI集群設(shè)計中的一個關(guān)鍵因素,特別是對于本地加速器互連。業(yè)界通常使用Telcordia SR-322標(biāo)準(zhǔn)作為預(yù)測可靠性的基礎(chǔ)。
e' o$ P2 P' ^! z; _; \; s/ B0 |+ K) w$ ]1 [9 t
關(guān)于硬件可靠性的要點:
/ u* R% d1 n% k% I$ b1. 故障率預(yù)測:可靠性通常分為三個階段:早期故障、隨機故障和老化故障。重點是在系統(tǒng)運行壽命期間最小化隨機故障。
# ~# F& z. v" C0 w. I1 I
5 X8 S1 R. N" M" z# @. p$ x/ J7 B2 T! s; k8 @3 s
2. 集成解決方案:高度集成的IC解決方案預(yù)計更可靠。這一原則預(yù)計也適用于基于硅的光電集成芯片(SI-EPICs)。, G2 d- ` v0 A- i# f
/ \ t3 \$ s0 F( y& W
) `9 P) x P+ E6 ^3. 激光器可靠性:激光器是光系統(tǒng)中的關(guān)鍵組件。激光器的最佳隨機故障率約為1 FIT(每十億器件小時一次故障)。9 u+ F6 _* S: `1 q* m) Q
P* O8 E$ F& m/ K- c, H$ o: h. `
4. 集成策略:激光器可以集成在可插拔模塊中(如OIF的ELSFP形狀因子)以便于更換,或直接集成冗余以實現(xiàn)極低的故障率。
* C& t! z, {6 H% h& ]' g/ y {
! s$ P# M/ V4 ]關(guān)鍵結(jié)論是,只有高度集成的光電子解決方案,通常稱為光電共封裝(CPO),才可能滿足AI計算系統(tǒng)本地光互連的嚴(yán)格硬件可靠性要求。
, q% Q) c2 X' e: R6 |3 L$ r+ c
7 [+ b# ~0 C9 R \/ w0 x6 L向更高容量過渡) x$ w7 S0 R. ^+ ?% J2 S) J& Z8 e+ w
隨著AI系統(tǒng)對帶寬的需求不斷增加,有幾種潛在的路徑可以實現(xiàn)容量翻倍:# e. j r/ d( R+ c: Z
- _& Z1 D |! u; ]% n
$ f3 A; b( P# S; F# |1. 升級到400G電氣鏈路:這種方法涉及從200G轉(zhuǎn)移到400G電氣鏈路。然而,這種轉(zhuǎn)變預(yù)計會減少傳輸距離,并對功耗和延遲產(chǎn)生負(fù)面影響。) T2 z( R+ x& o: t2 g1 i
( m: Z. l4 T8 U) M. y: l: z) W8 b3 j; f0 a o
2. 雙通道200G鏈路:另一種選擇是繼續(xù)使用200G信號,但每個鏈路使用兩個電氣通道。這種方法需要更多的連接器面積,在密集封裝的系統(tǒng)中可能成為限制因素。 H9 i" a& V4 J# G' h" }/ K
$ f5 o3 E8 q! ?4 S# z
5 W# L# Y! y. i+ R2 q4 k8 }3. 過渡到使用CPO的光鏈路:光電共封裝為下一代系統(tǒng)提供了所需的更高密度,是一個有希望的解決方案。% h6 C% P6 l4 L' z% l4 \2 b
chfeln5c2bt64046210816.png (208.41 KB, 下載次數(shù): 0)
下載附件
保存到相冊
chfeln5c2bt64046210816.png
2024-12-1 02:25 上傳
. u$ k. ^" _$ W/ i& s9 D- N圖4說明了從當(dāng)前200G板載銅連接到未來解決方案的過渡可能性,包括CPO光纖接口。
( H! U! N' @ J: ?% e! ~
9 J4 z u8 I: O. y7 \0 c8 `2 H比較解決方案:CPO vs 銅/ k7 ?0 q/ j7 x) L. z. N
在比較光電共封裝(CPO)解決方案與傳統(tǒng)銅纜解決方案時,需要考慮幾個關(guān)鍵因素:
4 b9 M+ }! K, W+ S) K" O& d& |
& E8 `/ U& }( ?, k+ M3 |5 E1. 密度:
( q+ K, _/ |- A) t- |銅解決方案目前限于2D排列,通道間距為400微米。硅基光電子可以實現(xiàn)3D排列,通道間距小于50微米,使互連密度潛在地比銅高8倍。光電子技術(shù)還允許通過CWDM/DWDM等技術(shù)在每根光纖中傳輸多個通道,而銅線限于每根線一個通道。9 o' e4 e# m& [4 o% y3 H
/ I2 k" |& B* R7 l! r
2. 傳輸距離:; n5 p( G) t' @8 G% Q
銅鏈路在200 Gbps時限制在約1米,在400 Gbps時更短(約0.7米)。硅基光電子可以在800 Gbps的速率下實現(xiàn)高達(dá)500米的傳輸距離。; F) {0 l0 O6 K
0 @; s+ [, h! p5 x3 _# |0 v3. 機械和熱挑戰(zhàn):
' s" ^4 \8 | D4 V銅解決方案通常需要垂直逃逸布線,可能限制散熱器面積。銅纜通常更硬更厚,使安裝和維護(hù)更具挑戰(zhàn)性。% K/ K2 {! Z0 N9 v, P) T1 b
( k( Z( u. ^ P
apid12vokew64046210916.png (288.47 KB, 下載次數(shù): 0)
下載附件
保存到相冊
apid12vokew64046210916.png
2024-12-1 02:25 上傳
3 q3 B$ X9 c" H# U& \圖5展示了銅纜解決方案與CPO的比較,突出顯示了在傳輸距離、密度和能源效率方面的差異。 T1 D) b& `4 R0 ~3 b
5 O( C% l6 Q! H4 v結(jié)論
6 T. z$ y4 s8 G# S9 T/ Q隨著AI集群繼續(xù)增加復(fù)雜性和規(guī)模,互連技術(shù)面臨的需求變得越來越具有挑戰(zhàn)性。傳統(tǒng)的銅基解決方案在帶寬、密度和能源效率方面正接近極限。光電共封裝(CPO)作為一種有希望的解決方案出現(xiàn),能夠滿足下一代AI計算系統(tǒng)的嚴(yán)格要求。
% T6 Y* N1 t5 p; [
4 V( R: r( g9 m7 o2 V1 OCPO在傳輸距離、密度、可靠性和能源效率方面具有顯著優(yōu)勢。可以實現(xiàn)最終用戶針對未來AI系統(tǒng)所追求的高帶寬密度(>1T/mm)和低功耗(
7 J' K5 c K- H: F, D, h3 l& U' z6 M9 l3 U4 z+ G1 ^) M3 _( a( Y$ j$ n
隨著AI行業(yè)繼續(xù)推動計算能力的邊界,向光互連的過渡,特別是以CPO的形式,似乎不僅有益,而且必要。這種轉(zhuǎn)變將使更強大、更高效和更可擴展的AI集群成為現(xiàn)實,為下一代人工智能應(yīng)用和突破奠定基礎(chǔ)。6 L( @: M4 {9 h% b) v. m6 {7 N
9 @8 o# v' l$ j% b; v' k
參考文獻(xiàn)
! J/ k( j' I" H[1] J. Hutchins, "Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.. l" o- k8 @+ ~, ~0 S
A; K+ a; _ @# ?' R& c2 ?
END
% G% h% I U+ J/ V- X! ^! I
, ~, [; d6 k' u
6 Z. n9 _- a# m軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
1 D" w g) Y: t點擊左下角"閱讀原文"馬上申請$ d0 [6 L- w' @# [, k# m
! [! ~. V8 O6 }8 q% A
歡迎轉(zhuǎn)載) X( F) O7 [' ^1 Q! f8 a( t
; \4 I4 Y8 S2 J, e. u; R. {# W1 G X( f* F轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
5 J( N% `9 ]1 L# ^, p
; D7 X, d' A* X( j( [) H: V4 M" h9 S4 p- p: E
( H) i& z; j! l9 j5 a$ {3 X7 D
k1s0z335ifo64046211016.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
k1s0z335ifo64046211016.gif
2024-12-1 02:25 上傳
, X o0 j2 R' F+ c- z7 W& N+ r5 N9 m. y: z* F2 m2 ^% `0 s
關(guān)注我們' ?: K5 F" n$ Y7 `" W4 p
" V4 Z" R. z$ [) B6 w
/ R( ?- ~3 r5 t! {4 K
5ugombznhs064046211116.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
5ugombznhs064046211116.png
2024-12-1 02:25 上傳
% n5 q9 {$ z/ q B( Z |
6 C( t. ^8 a" V6 Z" a" |
ytllk0cvjok64046211216.png (82.79 KB, 下載次數(shù): 1)
下載附件
保存到相冊
ytllk0cvjok64046211216.png
2024-12-1 02:25 上傳
- t* a* R! K8 k; F) q7 u
|
" J9 k9 M, }" j f: I7 m: Y, o
gps5vugazuy64046211316.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊
gps5vugazuy64046211316.png
2024-12-1 02:25 上傳
7 |' U! {6 h& j/ b) [3 v9 u | : W9 O/ \( I) F9 D, g
2 f& ]0 r; p9 e6 E, i$ _7 ]4 t: e6 e" `& o& H; S8 k" P
, y' u; y5 J4 }# D5 p7 l% D關(guān)于我們:
6 o" r& a9 ]# a4 |0 J. C深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。9 n9 m7 |& W8 g/ |
( H8 x$ @( n; h4 ?4 A( ], chttp://www.latitudeda.com/
/ X( o( P9 C+ ?' w(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|