電子產業(yè)一站式賦能平臺

PCB聯盟網

搜索
查看: 99|回復: 0
收起左側

光計算 I/O 中的可靠性和延遲

[復制鏈接]

686

主題

686

帖子

5863

積分

四級會員

Rank: 4

積分
5863
跳轉到指定樓層
樓主
發(fā)表于 2024-10-12 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言6 `/ l) `, j) h( J9 I; ]+ U
在人工智能(AI)和高性能計算快速發(fā)展的世界中,數據傳輸和處理的需求不斷挑戰(zhàn)傳統(tǒng)互連技術的極限。本文探討光計算 I/O 中可靠性和延遲的關鍵方面,特別關注 AI 集群光連接的特殊要求[1]。引用文獻來自LightCounting在7月30日舉辦的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感謝!
' d& F. ~" c: [/ E! y0 c/ o
) Q- c! |+ j" C! M  x/ A人工智能集群光連接簡介! G: b2 v6 w3 W. T
AI 集群光連接是光計算 I/O 的一種專門變體,由于其具有挑戰(zhàn)性,已經研究了幾十年。這些連接可以根據其范圍和技術broadly分為四類:
  • 集群:30-300m 范圍,使用單模光纖(SMF)
  • 機架間:2-20m 范圍,使用多模光纖(MMF)和單模光纖
  • 機架內(托盤):1-2m 范圍,使用銅纜
  • 芯片到芯片(C2C):2-5mm 范圍,使用銅跡線/ J) p, [! D" S
    [/ol]
    0 X, j0 @1 U) x) X$ n* m& I  x4 F9 g7 G* _% z; _: S
    6 @' j, h# C1 K7 J8 d
    圖 1:AI 集群連接類型、范圍和使用的技術。
    + }  Z, A% [! d* |6 Z7 t# B3 k. _
    理想的 AI 光連接應結合銅和光技術的最佳屬性:4 a) \( \" B3 P4 i0 ~
  • 成本、功耗和可靠性與銅 I/O 相當(比當前光學技術低幾個數量級)
  • 范圍和密度類似于波分復用(WDM)或空分復用(SDM)
  • 延遲主要由傳播延遲決定3 {9 y6 n5 D) S# j' `
      ~9 I& D0 }4 Z7 S4 B

    ) r- f9 \! [$ l1 w- ]" J光連接中的可靠性, C) E' ?) s( w! n
    可靠性是 AI 集群光連接中的重要因素。當前的網絡可靠性范式依賴于可靠性適中的可插拔模塊,故障率通常在 30 到 100 FIT(每十億小時故障次數)之間。然而,AI 連接要求更為嚴格,目標是達到與銅纜相當的可靠性,即低于 1 FIT。
    / N/ y+ p, H% \& X& w! x+ U' l: E
    6 d  [6 `1 b& N5 _& m9 [# d為了實現如此高的可靠性,正在探索兩種主要方法:
  • 開發(fā)本質上具有低 FIT 率的全新光器件
  • 實施新的系統(tǒng)級冗余技術! S7 \# U4 r+ k: D$ u. {
    [/ol]4 B0 o7 f6 r9 B7 \; }+ j9 e
    讓我們研究兩個有望提高可靠性的技術實例:
    ( N# t" w$ b9 b9 C1. 量子點(QD)激光器
    1 B+ r- ?: H$ E7 X; @* d/ r量子點激光器在可靠性方面比傳統(tǒng)量子阱(QW)激光器有顯著進步。6 m1 e  c4 L7 p, A0 A& d5 Y; j0 F
    + _, u1 g& F( X6 A, N+ r
    圖 2:量子阱(QW)和量子點(QD)結構比較。
    & w9 j5 W6 n; o# m: t3 _' C* Q; R- ?/ G9 A+ E/ H" A
    QD 激光器的可靠性比 QW 激光器高出 100 多倍。這種提高的可靠性源于幾個因素:
    3 S3 ^# ~. j" ^( M6 O% H
  • QD 相互獨立,將少數載流子與遠處的缺陷隔離
  • QD 通過硬化晶格抑制缺陷的生長
  • QD 激光器的隨機故障率比 QW 激光器低幾個數量級+ F% ~0 D: @1 v) V; B3 Q% O

    & G% N/ A! J6 o2 @4 K( O/ K  q  fQD 激光器的一個主要優(yōu)勢是對暗線缺陷(DLD)的免疫力,這是 QW 激光器的常見故障模式。即使在活性區(qū)附近存在多個缺陷,QD 激光器也不會出現 DLD 生長,顯著提高了壽命和可靠性。, p( [/ u! O2 g, `
    0 X: y0 F' c6 m6 n: Q
    2. 藍色 LED 陣列  f2 ^* r& P8 N) Q6 r: U
    另一種有望提高光連接可靠性的技術是使用藍色 LED 陣列。這些陣列提供了幾個優(yōu)勢:
    " e7 |+ r  T( M& j* y" ~
  • LED 退化隨時間呈對數模式
  • 基于 GaN 的 LED 具有較小的激活能,使其可靠性對溫度波動不太敏感
  • 雖然可能會有初始功率下降,但平均壽命(功率降低到 50% 的時間)非常長
    # J8 G8 h4 \# r! i! y4 Y" H" u
    % A, U% s7 f" {
    8 K7 p+ s( O! ^7 I+ S" N

      U5 k# M3 T& R' S% C3 a! a圖3:藍色 LED 隨時間的可靠性特性。
    5 V+ h2 c7 F- |" Z, L
    2 C. T, |6 W5 E2 j2 S( g6 B光連接中的延遲
    - Y, F- V1 k7 M2 h$ H: F' I9 u延遲是 AI 集群光連接中另一個關鍵因素,特別是對于需要實時處理或節(jié)點間高速數據交換的應用。我們可以將延遲考慮分為兩個主要類型:
  • 穩(wěn)態(tài)延遲
  • 瞬態(tài)延遲
    & M% p4 o+ }! x[/ol]6 T. s- T0 i( d0 @& H
    穩(wěn)態(tài)延遲:光學 PCIe
    * C, d0 @( i! D! VPCI Special Interest Group(PCI-SIG)目前正在制定工程變更通知(ECN),以支持 PCIe 6 的光纜。雖然沒有規(guī)范的距離要求,但合理的目標約為 10 米。這帶來了一些有趣的挑戰(zhàn)和機遇:
    * a- K" L% ]5 T; b1 J" U
  • 10m 鏈路的單程延遲為 50ns,往返延遲為 100ns
  • 這些延遲要求與傳統(tǒng)以太網前向糾錯(FEC)和光通信中通常使用的復雜數字信號處理(DSP)不兼容
  • 然而,10m 光鏈路在信號質量方面幾乎是理想的,可能實現低于 1e-7 的誤碼率(BER),并具有較大的信噪比(SNR)裕度
  • 這一性能遠低于 PCIe FLIT FEC 要求的 1e-6 BER,消除了對強 FEC 和復雜 DSP 的需求; D; ~6 `1 o7 a, b9 w+ H3 }

      V7 v/ a  B, v' }當前 ECN 基準包括鏈路兩端的重定時器,這消耗了整個延遲預算。然而,半重定時或非重定時配置可以輕松支持 10m 光鏈路,并具有更低的延遲。7 y4 M4 @+ d% f0 f" n

    + e' C! O4 K1 l瞬態(tài)延遲:光線路交換(OCS)
    ! P0 r5 `/ A* }2 ]' q光線路交換(OCS)已在一些大型數據中心(如谷歌)中部署用于網絡重構。人們越來越有興趣使用 OCS 進行流量交換,但這帶來了重大挑戰(zhàn):# G: C9 w/ H( _. m4 u
  • OCS 的控制問題極其復雜,已經研究了幾十年
  • 實現高速交換特別具有挑戰(zhàn)性
  • 雖然許多關注點在于開發(fā)快速光交換器(有些報告微秒級交換速度),但高速光學器件通常需要數百毫秒才能在交換后穩(wěn)定
  • 要實現納秒或微秒級的交換速度,需要全新類型的光學 PHY(物理層接口)- @- `( n+ c% r. {) |
    ! K4 N$ q$ P+ k
    結論3 z- c, j2 t' ^+ k" T! D1 a
    隨著 AI 集群不斷推動計算能力和數據處理的界限,對光互連的要求變得越來越嚴格。實現可靠性、延遲、成本和性能的理想平衡需要創(chuàng)新方法和新技術。- w7 ^1 }9 T: x
    3 K( c% F% G2 J8 a& d8 G1 d
    量子點激光器和藍色 LED 陣列在顯著提高光連接可靠性方面顯示出希望,有可能使其與銅互連的穩(wěn)健性相當。同時,需要仔細的設計考慮和光交換的新方法來滿足 AI 應用的超低延遲要求。# H3 J3 v1 |: _* H& Y9 ~
    ; s* L- C: u8 `3 W1 c1 G- k2 A+ @
    參考文獻
    ( B5 v3 h6 h3 ^3 r2 P, p7 v2 Y" ~[1] C. Cole, "Reliability & Latency in Optical Computer I/O: Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024./ V. c( ]: K, r9 f$ q% {2 Z

    ( u$ k( A# e/ `  W- END -
    & B' [+ h, T5 A2 K  M0 A! H0 f# Z9 U" S) j9 ]
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。
    $ y1 B  U! H3 g" N' T# B; }3 x點擊左下角"閱讀原文"馬上申請$ r( ~3 R  P- T3 C

    + r* R+ k0 q0 j8 `9 N$ f$ k歡迎轉載8 b; Y7 Q% e) U3 t

    6 `. }, m' S! G# |* j- T轉載請注明出處,請勿修改內容和刪除作者信息!
    ! v0 M: ?# L, n0 P% j8 J+ `% T1 M: v$ b2 _, J+ h$ J, r

    - B5 t$ v- x$ \$ I8 E3 L
    $ n/ {% t9 S) I8 \  Y2 `3 l/ D

    & N3 i/ x: v. K' H# b; j+ m0 B$ f4 @. _- r% ]
    關注我們
    7 L# y$ y: V* J' j7 V1 l, Y/ X1 K+ r, c7 B; T* ]
    4 K* Z7 B9 ~( R, r1 ~- o

    ; B6 Q! K9 e0 m5 P6 T

    # n/ \) D0 `8 G# V0 L! D , O3 g! L, J+ w5 U6 N

    " f+ v! W- E" @' ^
    2 J; x: k: m- ?( ]6 ?8 [; T
                          9 r$ }5 |( @, D+ v1 _7 I5 x
    , n8 K5 H/ J7 M# E" n7 V* x
    - I$ Y/ l# i+ D6 _
      ?! o, e3 t7 n8 o! [
    關于我們:! Q" L$ i% \6 O8 D- |
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。8 }3 r2 ^- h! j& t0 Q7 {+ a4 R# o
    * H# E3 W  G5 O# Y+ A
    http://www.latitudeda.com/' F. D% b' e: Y# _0 C
    (點擊上方名片關注我們,發(fā)現更多精彩內容)
  • 回復

    使用道具 舉報

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯系客服 關注微信 下載APP 返回頂部 返回列表