電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 100|回復(fù): 0
收起左側(cè)

光計(jì)算 I/O 中的可靠性和延遲

[復(fù)制鏈接]

686

主題

686

帖子

5863

積分

四級(jí)會(huì)員

Rank: 4

積分
5863
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-12 08:00:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言
1 q' k2 L% i7 |6 Y& A在人工智能(AI)和高性能計(jì)算快速發(fā)展的世界中,數(shù)據(jù)傳輸和處理的需求不斷挑戰(zhàn)傳統(tǒng)互連技術(shù)的極限。本文探討光計(jì)算 I/O 中可靠性和延遲的關(guān)鍵方面,特別關(guān)注 AI 集群光連接的特殊要求[1]。引用文獻(xiàn)來自LightCounting在7月30日舉辦的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感謝!
2 k: [* G7 _' l; S0 P, L/ |9 P- b8 P
人工智能集群光連接簡(jiǎn)介2 m) z0 n: N+ W% o  y0 v4 I) W
AI 集群光連接是光計(jì)算 I/O 的一種專門變體,由于其具有挑戰(zhàn)性,已經(jīng)研究了幾十年。這些連接可以根據(jù)其范圍和技術(shù)broadly分為四類:
  • 集群:30-300m 范圍,使用單模光纖(SMF)
  • 機(jī)架間:2-20m 范圍,使用多模光纖(MMF)和單模光纖
  • 機(jī)架內(nèi)(托盤):1-2m 范圍,使用銅纜
  • 芯片到芯片(C2C):2-5mm 范圍,使用銅跡線
    ; K% k8 [2 T8 l5 ~$ P- C* x0 h[/ol]: Q8 Y- _* r. M; i
    5 H1 Z. T9 E3 k8 l0 R

    ' r: w" H$ v7 H6 J# E圖 1:AI 集群連接類型、范圍和使用的技術(shù)。
    ( M* G9 a! z0 _) D$ ]9 D/ ~
    6 W$ a. u; E9 m' J理想的 AI 光連接應(yīng)結(jié)合銅和光技術(shù)的最佳屬性:
    # Y/ R9 z9 `5 R& ?- q4 e+ f/ F
  • 成本、功耗和可靠性與銅 I/O 相當(dāng)(比當(dāng)前光學(xué)技術(shù)低幾個(gè)數(shù)量級(jí))
  • 范圍和密度類似于波分復(fù)用(WDM)或空分復(fù)用(SDM)
  • 延遲主要由傳播延遲決定
    0 W/ f- F1 _$ x) o* t% |; _! e
    3 B9 u) ^, a3 e! m" G. l
    . L; D# U( U$ K* t: \
    光連接中的可靠性6 q; V1 b& T0 ~' u# W. c5 y
    可靠性是 AI 集群光連接中的重要因素。當(dāng)前的網(wǎng)絡(luò)可靠性范式依賴于可靠性適中的可插拔模塊,故障率通常在 30 到 100 FIT(每十億小時(shí)故障次數(shù))之間。然而,AI 連接要求更為嚴(yán)格,目標(biāo)是達(dá)到與銅纜相當(dāng)?shù)目煽啃裕吹陀?1 FIT。
    9 H7 a# ^& E2 v+ D4 l+ b( T# V4 I- e7 x6 G
    為了實(shí)現(xiàn)如此高的可靠性,正在探索兩種主要方法:
  • 開發(fā)本質(zhì)上具有低 FIT 率的全新光器件
  • 實(shí)施新的系統(tǒng)級(jí)冗余技術(shù)9 S0 c5 C7 Y; t3 Z9 o" N8 ~, S
    [/ol]
    8 S% r1 p1 q* J& ]$ [) F讓我們研究?jī)蓚(gè)有望提高可靠性的技術(shù)實(shí)例:
    : d& L5 V" g5 M) [% q1. 量子點(diǎn)(QD)激光器
    - p- i( t" |5 i! z+ \& J$ ]量子點(diǎn)激光器在可靠性方面比傳統(tǒng)量子阱(QW)激光器有顯著進(jìn)步。( Q" V* N: h* n8 B
    ( g, R8 H4 h. |8 [
    圖 2:量子阱(QW)和量子點(diǎn)(QD)結(jié)構(gòu)比較。
    $ p" `; q2 c9 {, W, X! d! i9 G. g. ^( Q; n
    QD 激光器的可靠性比 QW 激光器高出 100 多倍。這種提高的可靠性源于幾個(gè)因素:
    5 L3 Q: m- U' p2 i- e
  • QD 相互獨(dú)立,將少數(shù)載流子與遠(yuǎn)處的缺陷隔離
  • QD 通過硬化晶格抑制缺陷的生長(zhǎng)
  • QD 激光器的隨機(jī)故障率比 QW 激光器低幾個(gè)數(shù)量級(jí)* A9 h% Q  |0 I: F5 C& `& b* v
    ' n# }/ x/ T3 j: `
    QD 激光器的一個(gè)主要優(yōu)勢(shì)是對(duì)暗線缺陷(DLD)的免疫力,這是 QW 激光器的常見故障模式。即使在活性區(qū)附近存在多個(gè)缺陷,QD 激光器也不會(huì)出現(xiàn) DLD 生長(zhǎng),顯著提高了壽命和可靠性。% k# P- E% J1 {4 x$ i, v1 M( r, k

    ! v. d, n! b  F* `4 H; ^7 p) J7 P0 v. |* ?& f2. 藍(lán)色 LED 陣列
    : ~7 R9 F+ o8 r& p另一種有望提高光連接可靠性的技術(shù)是使用藍(lán)色 LED 陣列。這些陣列提供了幾個(gè)優(yōu)勢(shì):
      |  I7 T+ Q" L9 |$ G. S
  • LED 退化隨時(shí)間呈對(duì)數(shù)模式
  • 基于 GaN 的 LED 具有較小的激活能,使其可靠性對(duì)溫度波動(dòng)不太敏感
  • 雖然可能會(huì)有初始功率下降,但平均壽命(功率降低到 50% 的時(shí)間)非常長(zhǎng)' q2 ^7 M- U2 q0 Q/ b* ^
    5 I( Q  J$ z  J# n

      g& Z1 V. A6 ^5 [1 K! m
    & ?- y" w$ e8 m圖3:藍(lán)色 LED 隨時(shí)間的可靠性特性。
    ) @; A0 U. e/ o) I. [' c
    3 {0 _  j& g; w  N! y光連接中的延遲
    * v8 F8 a% d4 P% f9 p$ \" I4 Z延遲是 AI 集群光連接中另一個(gè)關(guān)鍵因素,特別是對(duì)于需要實(shí)時(shí)處理或節(jié)點(diǎn)間高速數(shù)據(jù)交換的應(yīng)用。我們可以將延遲考慮分為兩個(gè)主要類型:
  • 穩(wěn)態(tài)延遲
  • 瞬態(tài)延遲
    . i+ ~9 ~0 K3 s8 C! `; V[/ol]
    # p2 C- m$ |) a7 ?穩(wěn)態(tài)延遲:光學(xué) PCIe
    2 @4 u+ M* P* W: L- K8 c1 ^/ WPCI Special Interest Group(PCI-SIG)目前正在制定工程變更通知(ECN),以支持 PCIe 6 的光纜。雖然沒有規(guī)范的距離要求,但合理的目標(biāo)約為 10 米。這帶來了一些有趣的挑戰(zhàn)和機(jī)遇:
    # W" w) Z; I( K" f7 I: K2 ?0 k
  • 10m 鏈路的單程延遲為 50ns,往返延遲為 100ns
  • 這些延遲要求與傳統(tǒng)以太網(wǎng)前向糾錯(cuò)(FEC)和光通信中通常使用的復(fù)雜數(shù)字信號(hào)處理(DSP)不兼容
  • 然而,10m 光鏈路在信號(hào)質(zhì)量方面幾乎是理想的,可能實(shí)現(xiàn)低于 1e-7 的誤碼率(BER),并具有較大的信噪比(SNR)裕度
  • 這一性能遠(yuǎn)低于 PCIe FLIT FEC 要求的 1e-6 BER,消除了對(duì)強(qiáng) FEC 和復(fù)雜 DSP 的需求1 }3 I- f7 ?( A) }. U

    3 U2 I- H- z% r" t當(dāng)前 ECN 基準(zhǔn)包括鏈路兩端的重定時(shí)器,這消耗了整個(gè)延遲預(yù)算。然而,半重定時(shí)或非重定時(shí)配置可以輕松支持 10m 光鏈路,并具有更低的延遲。
    : d8 d+ t/ r8 V& o. _! l1 I* o9 Z- V% M3 `$ G( g
    瞬態(tài)延遲:光線路交換(OCS)
    " H+ k+ _; P. T9 j/ A6 K光線路交換(OCS)已在一些大型數(shù)據(jù)中心(如谷歌)中部署用于網(wǎng)絡(luò)重構(gòu)。人們?cè)絹碓接信d趣使用 OCS 進(jìn)行流量交換,但這帶來了重大挑戰(zhàn):; {$ e. o. Z+ C, C
  • OCS 的控制問題極其復(fù)雜,已經(jīng)研究了幾十年
  • 實(shí)現(xiàn)高速交換特別具有挑戰(zhàn)性
  • 雖然許多關(guān)注點(diǎn)在于開發(fā)快速光交換器(有些報(bào)告微秒級(jí)交換速度),但高速光學(xué)器件通常需要數(shù)百毫秒才能在交換后穩(wěn)定
  • 要實(shí)現(xiàn)納秒或微秒級(jí)的交換速度,需要全新類型的光學(xué) PHY(物理層接口)9 h0 c3 f/ n' \

    0 r0 j/ r: w# J8 J2 K結(jié)論* l% X, E" u1 S8 r$ i
    隨著 AI 集群不斷推動(dòng)計(jì)算能力和數(shù)據(jù)處理的界限,對(duì)光互連的要求變得越來越嚴(yán)格。實(shí)現(xiàn)可靠性、延遲、成本和性能的理想平衡需要?jiǎng)?chuàng)新方法和新技術(shù)。! ]$ A$ \" w6 d7 r" Y* y
    6 I7 p8 q6 r5 J" E$ H4 y* B/ w9 r
    量子點(diǎn)激光器和藍(lán)色 LED 陣列在顯著提高光連接可靠性方面顯示出希望,有可能使其與銅互連的穩(wěn)健性相當(dāng)。同時(shí),需要仔細(xì)的設(shè)計(jì)考慮和光交換的新方法來滿足 AI 應(yīng)用的超低延遲要求。. A  M, W! U) o+ r; K5 z

    : Q2 d7 j$ U, K+ t( h參考文獻(xiàn)! m' D0 _3 m5 {) E6 m# c
    [1] C. Cole, "Reliability & Latency in Optical Computer I/O: Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.3 U2 g% o1 I" K& _# f8 B

    5 j" O& Q# m0 W) I* o- END -2 d7 m9 A/ [2 w3 M8 U  I

    . H9 H- W/ R/ V1 L軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。6 C" o0 c+ W5 X4 r
    點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
    ; p" _' N4 N# I' `3 P- L1 ^8 t( g6 V: K  c8 w' H
    歡迎轉(zhuǎn)載, f1 k! E6 G$ c  A' u' m% V
    * u# b( @9 [4 C! F. j
    轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!8 `# J7 i2 B: z) [6 y- D* c

    ; E: U% Y" n8 ]/ d! Y; G6 A# S6 L& G: p; E

    ( |% u" O' l* T1 O! K0 S% T9 K
    9 `+ \; o. p9 G0 B, t
    ' t/ h2 U: |5 A  \- f, w關(guān)注我們
    / n& O% x5 K2 d  l
    % T7 C+ S% P9 R
    2 z& @* I. Y2 F5 z: @) l

    0 S; D" k6 F# e0 z. L
    + _1 v. C& ~- L$ }/ _. U. _' N
    1 Q5 {; C4 S* L. w$ R8 d( U% d

    & O; B+ y- X; g& C 5 @6 d' G, I. T/ g
                         
    1 y4 R$ F, |, P$ h& Z6 y9 K* j) V

    # Z) Q3 W: s; p# r$ A( U
    / k# r) ]( i- H3 H4 k8 N) x關(guān)于我們:
    0 `( c1 X0 A; ^  T* \7 y% ~. s' D2 Y深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。# W( e  E/ g9 M% k2 K7 Y/ E
    / W) y0 f( k' x; e% C! U9 L1 X
    http://www.latitudeda.com/
    % C$ {2 }% Z# l* u0 Y(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表