電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 49|回復(fù): 0
收起左側(cè)

Ranovus | 人工智能集群中光連接的特殊要求

[復(fù)制鏈接]

686

主題

686

帖子

5863

積分

四級會員

Rank: 4

積分
5863
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-11-29 08:01:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
4 q9 l. t: J0 P* X  u8 K人工智能(AI)已成為現(xiàn)代技術(shù)的基石,推動著各個領(lǐng)域的創(chuàng)新。隨著AI模型日益復(fù)雜和規(guī);,對更強大、更高效的計算系統(tǒng)的需求也在不斷增加。在這些先進(jìn)的AI系統(tǒng)中,組件之間的互連性是一個關(guān)鍵方面,尤其是在AI集群中。本文探討了AI集群中光連接的特殊要求,重點關(guān)注下一代AI計算架構(gòu)的挑戰(zhàn)和潛在解決方案[1]。$ I6 F# A7 N6 k

  W0 L) `6 L& V* s3 i$ R% `: I- V  Q! ?! x8 c9 ^
理解AI計算鏈路
+ ]9 y2 S; j0 u' T& X在AI集群中,不同類型的鏈路連接著系統(tǒng)的各個組件?梢愿鶕(jù)功能、距離和性能要求對這些鏈路進(jìn)行分類。3 F1 e: @0 C8 l* b, ~. @& R
) [; p7 k' q) h
圖1展示了AI計算架構(gòu)的示例,突出顯示了不同類型的鏈路,包括前端網(wǎng)絡(luò)、后端計算和本地加速器互連。
' @1 I" `( V1 {
$ U  V: Y  D# s3 T9 @* \AI集群中的關(guān)鍵鏈路包括:
3 }+ p  e( v, O$ ^0 r/ L" Q1. 遠(yuǎn)程加速器鏈路:這些連接跨越100米或更長的距離,通常使用以太網(wǎng)(UEC)或InfiniBand協(xié)議。由于涉及的距離較長,已經(jīng)在使用光技術(shù)。
! ^; n$ ?, q' F: N6 J2. 本地加速器鏈路:覆蓋1.5米或更長的距離(未來可能減少到10米以下),目前使用PCIe、CXL、UALink或NVLink等協(xié)議。主要基于銅線,但正在開始向光解決方案過渡。
$ K% N. E. ]8 M7 \( y3. 高帶寬內(nèi)存(HBM)鏈路:這些是非常短距離的連接(約1厘米),使用HBM3或HBM3E等協(xié)議。需要極寬的接口,對延遲非常敏感。
% [; h. v* R/ g+ r. d  M4 _5 w, c
4 b+ v# A. M1 [; `3 T本地加速器鏈路:創(chuàng)新的焦點  @6 b1 e5 b% q3 G
本文主要關(guān)注本地加速器鏈路,因為在AI集群中,這些鏈路呈現(xiàn)出獨特的挑戰(zhàn)和改進(jìn)機會。$ ]' i5 s. b4 x/ D; ]) x: s

' X/ }" U! N( j本地加速器鏈路的現(xiàn)狀3 X; L' I. z! z  j' ?& b

; r0 m" y1 r% U& m/ o" C圖2描繪了當(dāng)前最先進(jìn)的系統(tǒng),使用200G的銅基連接,顯示了擴展電纜和NVLINK交換卡。
$ h( o2 Y6 D2 G# w9 Z( B" M* ~8 n) {' L% W
最先進(jìn)的AI系統(tǒng)目前在本地加速器鏈路中采用200G的銅基連接。機架內(nèi)連接是無源的,有助于降低功耗和延遲。然而,隨著AI系統(tǒng)的不斷發(fā)展,需要至少將互連帶寬翻倍,同時延長傳輸距離并連接更多的加速器。
; T  x" M* @: G0 Z/ {& \
  F; `7 S3 o3 |8 E9 M例如,當(dāng)前系統(tǒng)可能具有:
- b  [: N# `( h1 Z, B5 _1 |% F
  • 每個GPU 72個數(shù)據(jù)路徑
  • 每個GPU 7.2 Tbps帶寬
  • 每個機架5,184個數(shù)據(jù)路徑& R& f$ M3 v2 Z) D; S
    & r# q; z$ ?% s7 }. _. L
    未來的GPU預(yù)計需要:
    : j2 n8 o# ^( N9 o2 s6 c
  • 每個GPU 51.2 Tbps
  • 每個系統(tǒng)72個GPU
  • 每個GPU 512個數(shù)據(jù)路徑,速率為200G(發(fā)送和接收)
  • 每個機架36,864個數(shù)據(jù)路徑+ s1 a% @, ?1 A
      P; s8 v: {: S
    這種帶寬和連接需求的顯著增加對銅基解決方案構(gòu)成了挑戰(zhàn),可能難以高效滿足。/ l+ n6 H/ M; Y
    % {% ^) i- |  V. m7 Q) c3 r0 K
    本地加速器鏈路的特殊特性* S) j* n* a% O# U3 i1 j8 R
    本地加速器鏈路具有獨特的特性,使其區(qū)別于AI集群中的其他類型連接:" P  b* `* \2 j0 u1 a5 t6 R6 n

    & P: I" Q; f# m& N

    , I" X* ^5 U; N" T1. 協(xié)議適應(yīng):大多數(shù)本地加速器鏈路基于PCIe協(xié)議,該協(xié)議最初是為銅連接設(shè)計的。將此協(xié)議適應(yīng)光鏈路需要解決幾個挑戰(zhàn):* e7 I& S; L4 d3 V: i
    修改接收器檢測、側(cè)帶、電氣空閑、超時、低頻信號和擴頻時鐘等方面。
    3 K* V- e1 Q$ D* F業(yè)界采取兩步法:首先保持向后兼容性,然后定義一個適合光的協(xié)議。
    ) a) ]" u, x! G  x9 E5 P" w3 B- f. M- k7 M: ?5 e- z
    2. 更嚴(yán)格的比特錯誤率(BER)要求:本地加速器鏈路要求最大幀錯誤率(FBER)小于1e-6,比典型的以太網(wǎng)要求更嚴(yán)格。然而,這可以通過當(dāng)今的集成光技術(shù)實現(xiàn)。
    2 A6 N& y, Q3 n$ X) u- G1 W; f1 F! g7 T, A6 j* \) F
    3. 嚴(yán)格的延遲和功耗效率目標(biāo):這些鏈路需要滿足非常苛刻的延遲和功耗效率要求。前面提到的"第二步"協(xié)議旨在解決這些需求。
    8 b2 M2 K) ?  H# B# Y6 F! X2 d+ f1 j# z" w: C* U: L
    4. 互操作性和可擴展性:確保不同組件之間的互操作性以及支持具有高基數(shù)(端口數(shù))的大型集群很重要。' z, h( u5 e3 U

    $ h* s; c& h) d- v& `2 G圖3顯示了PCIe協(xié)議向光鏈路演進(jìn)的過程,說明了當(dāng)前的銅基方法和兩個步驟朝向適合光的協(xié)議發(fā)展。2 @4 `! n1 g5 e; k$ _
    9 t8 h# @$ ^9 g0 V
    硬件可靠性考慮
    ! U# @: a+ J+ V3 H可靠性是AI集群設(shè)計中的一個關(guān)鍵因素,特別是對于本地加速器互連。業(yè)界通常使用Telcordia SR-322標(biāo)準(zhǔn)作為預(yù)測可靠性的基礎(chǔ)。
      e' o$ P2 P' ^! z; _; \; s/ B0 |+ K) w$ ]1 [9 t
    關(guān)于硬件可靠性的要點:
    / u* R% d1 n% k% I$ b1. 故障率預(yù)測:可靠性通常分為三個階段:早期故障、隨機故障和老化故障。重點是在系統(tǒng)運行壽命期間最小化隨機故障。
    # ~# F& z. v" C0 w. I1 I
    5 X8 S1 R. N" M" z# @. p$ x/ J
    7 B2 T! s; k8 @3 s
    2. 集成解決方案:高度集成的IC解決方案預(yù)計更可靠。這一原則預(yù)計也適用于基于硅的光電集成芯片(SI-EPICs)。, G2 d- `  v0 A- i# f
    / \  t3 \$ s0 F( y& W

    ) `9 P) x  P+ E6 ^3. 激光器可靠性:激光器是光系統(tǒng)中的關(guān)鍵組件。激光器的最佳隨機故障率約為1 FIT(每十億器件小時一次故障)。9 u+ F6 _* S: `1 q* m) Q

      P* O8 E$ F& m/ K
    - c, H$ o: h. `
    4. 集成策略:激光器可以集成在可插拔模塊中(如OIF的ELSFP形狀因子)以便于更換,或直接集成冗余以實現(xiàn)極低的故障率。
    * C& t! z, {6 H% h& ]' g/ y  {
    ! s$ P# M/ V4 ]關(guān)鍵結(jié)論是,只有高度集成的光電子解決方案,通常稱為光電共封裝(CPO),才可能滿足AI計算系統(tǒng)本地光互連的嚴(yán)格硬件可靠性要求。
    , q% Q) c2 X' e: R6 |3 L$ r+ c
    7 [+ b# ~0 C9 R  \/ w0 x6 L向更高容量過渡) x$ w7 S0 R. ^+ ?% J2 S) J& Z8 e+ w
    隨著AI系統(tǒng)對帶寬的需求不斷增加,有幾種潛在的路徑可以實現(xiàn)容量翻倍:# e. j  r/ d( R+ c: Z

    - _& Z1 D  |! u; ]% n

    $ f3 A; b( P# S; F# |1. 升級到400G電氣鏈路:這種方法涉及從200G轉(zhuǎn)移到400G電氣鏈路。然而,這種轉(zhuǎn)變預(yù)計會減少傳輸距離,并對功耗和延遲產(chǎn)生負(fù)面影響。) T2 z( R+ x& o: t2 g1 i

    ( m: Z. l4 T8 U) M
    . y: l: z) W8 b3 j; f0 a  o
    2. 雙通道200G鏈路:另一種選擇是繼續(xù)使用200G信號,但每個鏈路使用兩個電氣通道。這種方法需要更多的連接器面積,在密集封裝的系統(tǒng)中可能成為限制因素。  H9 i" a& V4 J# G' h" }/ K
    $ f5 o3 E8 q! ?4 S# z

    5 W# L# Y! y. i+ R2 q4 k8 }3. 過渡到使用CPO的光鏈路:光電共封裝為下一代系統(tǒng)提供了所需的更高密度,是一個有希望的解決方案。% h6 C% P6 l4 L' z% l4 \2 b

    . u$ k. ^" _$ W/ i& s9 D- N圖4說明了從當(dāng)前200G板載銅連接到未來解決方案的過渡可能性,包括CPO光纖接口。
    ( H! U! N' @  J: ?% e! ~
    9 J4 z  u8 I: O. y7 \0 c8 `2 H比較解決方案:CPO vs 銅/ k7 ?0 q/ j7 x) L. z. N
    在比較光電共封裝(CPO)解決方案與傳統(tǒng)銅纜解決方案時,需要考慮幾個關(guān)鍵因素:
    4 b9 M+ }! K, W+ S) K" O& d& |

    & E8 `/ U& }( ?, k+ M3 |5 E1. 密度:
    ( q+ K, _/ |- A) t- |
  • 銅解決方案目前限于2D排列,通道間距為400微米。
  • 硅基光電子可以實現(xiàn)3D排列,通道間距小于50微米,使互連密度潛在地比銅高8倍。
  • 光電子技術(shù)還允許通過CWDM/DWDM等技術(shù)在每根光纖中傳輸多個通道,而銅線限于每根線一個通道。9 o' e4 e# m& [4 o% y3 H
    / I2 k" |& B* R7 l! r
    2. 傳輸距離:; n5 p( G) t' @8 G% Q
  • 銅鏈路在200 Gbps時限制在約1米,在400 Gbps時更短(約0.7米)。
  • 硅基光電子可以在800 Gbps的速率下實現(xiàn)高達(dá)500米的傳輸距離。; F) {0 l0 O6 K

    0 @; s+ [, h! p5 x3 _# |0 v3. 機械和熱挑戰(zhàn):
    ' s" ^4 \8 |  D4 V
  • 銅解決方案通常需要垂直逃逸布線,可能限制散熱器面積。
  • 銅纜通常更硬更厚,使安裝和維護(hù)更具挑戰(zhàn)性。% K/ K2 {! Z0 N9 v, P) T1 b

    ( k( Z( u. ^  P
    3 q3 B$ X9 c" H# U& \圖5展示了銅纜解決方案與CPO的比較,突出顯示了在傳輸距離、密度和能源效率方面的差異。  T1 D) b& `4 R0 ~3 b

    5 O( C% l6 Q! H4 v結(jié)論
    6 T. z$ y4 s8 G# S9 T/ Q隨著AI集群繼續(xù)增加復(fù)雜性和規(guī)模,互連技術(shù)面臨的需求變得越來越具有挑戰(zhàn)性。傳統(tǒng)的銅基解決方案在帶寬、密度和能源效率方面正接近極限。光電共封裝(CPO)作為一種有希望的解決方案出現(xiàn),能夠滿足下一代AI計算系統(tǒng)的嚴(yán)格要求。
    % T6 Y* N1 t5 p; [
    4 V( R: r( g9 m7 o2 V1 OCPO在傳輸距離、密度、可靠性和能源效率方面具有顯著優(yōu)勢。可以實現(xiàn)最終用戶針對未來AI系統(tǒng)所追求的高帶寬密度(>1T/mm)和低功耗(
    7 J' K5 c  K- H: F, D, h3 l& U' z6 M9 l3 U4 z+ G1 ^) M3 _( a( Y$ j$ n
    隨著AI行業(yè)繼續(xù)推動計算能力的邊界,向光互連的過渡,特別是以CPO的形式,似乎不僅有益,而且必要。這種轉(zhuǎn)變將使更強大、更高效和更可擴展的AI集群成為現(xiàn)實,為下一代人工智能應(yīng)用和突破奠定基礎(chǔ)。6 L( @: M4 {9 h% b) v. m6 {7 N
    9 @8 o# v' l$ j% b; v' k
    參考文獻(xiàn)
    ! J/ k( j' I" H[1] J. Hutchins, "Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.. l" o- k8 @+ ~, ~0 S
      A; K+ a; _  @# ?' R& c2 ?
    END
    % G% h% I  U+ J/ V- X! ^! I

    , ~, [; d6 k' u
    6 Z. n9 _- a# m軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    1 D" w  g) Y: t點擊左下角"閱讀原文"馬上申請$ d0 [6 L- w' @# [, k# m
    ! [! ~. V8 O6 }8 q% A
    歡迎轉(zhuǎn)載) X( F) O7 [' ^1 Q! f8 a( t

    ; \4 I4 Y8 S2 J, e. u; R. {# W1 G  X( f* F轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    5 J( N% `9 ]1 L# ^, p
    ; D7 X, d' A* X( j( [) H: V4 M" h9 S4 p- p: E
    ( H) i& z; j! l9 j5 a$ {3 X7 D

    , X  o0 j2 R' F+ c- z7 W& N+ r5 N9 m. y: z* F2 m2 ^% `0 s
    關(guān)注我們' ?: K5 F" n$ Y7 `" W4 p
    " V4 Z" R. z$ [) B6 w

    / R( ?- ~3 r5 t! {4 K
    % n5 q9 {$ z/ q  B( Z

    6 C( t. ^8 a" V6 Z" a" | - t* a* R! K8 k; F) q7 u

    " J9 k9 M, }" j  f: I7 m: Y, o
    7 |' U! {6 h& j/ b) [3 v9 u
                          : W9 O/ \( I) F9 D, g

    2 f& ]0 r; p9 e6 E, i$ _7 ]4 t
    : e6 e" `& o& H; S8 k" P

    , y' u; y5 J4 }# D5 p7 l% D關(guān)于我們:
    6 o" r& a9 ]# a4 |0 J. C深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。9 n9 m7 |& W8 g/ |

    ( H8 x$ @( n; h4 ?4 A( ], chttp://www.latitudeda.com/
    / X( o( P9 C+ ?' w(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表