電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 76|回復(fù): 0
收起左側(cè)

OCP2024 | 新一代人工智能服務(wù)器設(shè)計

[復(fù)制鏈接]

686

主題

686

帖子

5863

積分

四級會員

Rank: 4

積分
5863
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-11-20 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言5 Q! o- ?, _9 e3 o2 Y; z: i5 h
在人工智能和機器學(xué)習(xí)快速發(fā)展的背景下,對專用硬件基礎(chǔ)設(shè)施的需求持續(xù)增長。本文探討了創(chuàng)新的服務(wù)器設(shè)計方法,針對現(xiàn)代GPU工作負(fù)載進行優(yōu)化,這些內(nèi)容來自Nebius AI在定制服務(wù)器解決方案方面的突破性發(fā)展[1]。
9 X+ A8 G) _) @1 p5 d 3 e+ U  ~  q( J! {* X

3 Y$ l; G- A) S) l: z2 E. l服務(wù)器架構(gòu)的演進" f. N3 S( f. h) C# L" Z# r# P
傳統(tǒng)服務(wù)器設(shè)計在托管現(xiàn)代GPU時面臨諸多局限性,特別是在AI工作負(fù)載方面。主要挑戰(zhàn)包括散熱效率低下、部署程序復(fù)雜以及固件專有限制。這些限制推動了對專用解決方案的需求。# u! t/ d  Y7 X5 M0 V3 i
$ h. N- s1 B2 H  X9 Z+ d
針對AI工作負(fù)載的高級服務(wù)器規(guī)格
6 I3 Q, }; ^4 J- k新一代AI服務(wù)器引入了革命性的規(guī)格設(shè)計,專門用于高性能計算。這些服務(wù)器與最新的NVIDIA HGX H100/H200 GPU兼容,同時在散熱、可訪問性和維護方面融入多項創(chuàng)新。1 b9 b) h/ [' B  \& h/ m

  E7 m: W4 U' l/ R* m8 ~$ ?圖1:全面的服務(wù)器規(guī)格,展示與NVIDIA HGX H100/H200的兼容性、免工具安裝功能和先進的散熱系統(tǒng)設(shè)計。
# Y# P8 @1 Y  ~* ?. T# r- M1 Z% E5 P! W! j
革命性的無線纜設(shè)計* d% _: `1 V3 P, h& {6 Y3 k
現(xiàn)代服務(wù)器設(shè)計中最顯著的創(chuàng)新之一是消除了主板和GPU組件之間的傳統(tǒng)線纜連接。這一進步解決了多個長期困擾服務(wù)器維護和可靠性的問題。; j  H. b4 C( c2 c$ M9 i

8 y# j$ G4 {# m5 D- a
. v" ]' W& g" b7 y/ [6 r1 L  t圖2:傳統(tǒng)線纜連接與新型無線纜設(shè)計的對比,突出顯示改進的可靠性和維護優(yōu)勢。# o; q! H6 P+ S
2 t; X/ u: k5 i6 H
優(yōu)化的散熱架構(gòu)8 D! S. g9 Q1 J4 `
散熱管理在服務(wù)器設(shè)計中仍是核心因素,尤其是對于高性能AI工作負(fù)載。新設(shè)計實現(xiàn)了一個復(fù)雜的散熱系統(tǒng),為CPU和GPU組件設(shè)置獨立區(qū)域。
. i9 v3 z: v. D6 M; [
  V$ t. M7 D& P+ E4 O2 y- V圖3:先進的散熱系統(tǒng)設(shè)計,具有獨立風(fēng)扇控制系統(tǒng)的分離式CPU和GPU區(qū)域。
0 S4 @- q$ H$ F* q$ y
; l% j- H. H- G性能和效率指標(biāo)
4 k- @& h6 \) q& b通過比較性能指標(biāo),特別是在不同運行溫度下的功耗,清晰地展示了這些設(shè)計創(chuàng)新的效果。
' s4 s" [8 j$ ^3 Y
! _: w6 v) _( J1 W  i! B( z圖4:不同進氣溫度下Nebius HGX與標(biāo)準(zhǔn)19" HGX服務(wù)器的功耗比較。
# c* Z. }- K+ ?9 I3 m. A* g1 F/ w8 _0 g) G# d
維護和可訪問性特點8 s9 s7 A( F, I0 C0 Z
現(xiàn)代服務(wù)器設(shè)計優(yōu)先考慮維護便利性和組件快速訪問,顯著減少停機時間和運營成本。) @. M5 ]% D: G" {* A; R
* b% w6 D* i0 t; m$ \1 ^
圖5:免工具設(shè)計特點,實現(xiàn)快速組件訪問和維護程序。1 b) X. |; V& b% ^; h! @1 X

1 y6 U8 A" c. i9 ?總擁有成本優(yōu)勢
0 o$ h( j; a2 P. r- [5 K這些設(shè)計創(chuàng)新的綜合效果轉(zhuǎn)化為顯著的總擁有成本(TCO)優(yōu)勢。通過各種優(yōu)化實現(xiàn)了資本支出和運營支出的雙重優(yōu)勢:; J9 ?9 i* H" k8 ~9 n8 ]2 \

. C$ x) h% b/ E- {: A# P' g+ O: O圖6:總擁有成本優(yōu)勢的全面分析,包括資本支出和運營支出的優(yōu)勢。
# ~6 c2 m/ Y5 y; Y* F* }" _  n2 [6 _) {; D% J9 q, Y+ a6 x
未來發(fā)展和應(yīng)用
- r! H8 G% P/ H. g這里概述的服務(wù)器設(shè)計原則正在擴展到各種用例,包括推理和閃存存儲應(yīng)用。這些發(fā)展展示了新架構(gòu)的多樣性和可擴展性。2 Q& T, d0 e+ J, \. q& ^/ h

; x. a1 N) D, e. u; n9 E9 u( U圖7:完整服務(wù)器系列概述,展示從ML/AI到計算和存儲的各種應(yīng)用。
7 X9 I+ ~, ~4 a9 _6 [0 d0 l4 ^5 S/ d
結(jié)論. e% e9 |. V2 o1 P8 ~9 Q8 {
用于AI工作負(fù)載的服務(wù)器設(shè)計進步代表了數(shù)據(jù)中心基礎(chǔ)設(shè)施的突破。通過解決散熱管理、維護和組件集成等關(guān)鍵挑戰(zhàn),這些新設(shè)計正在為AI計算基礎(chǔ)設(shè)施的性能和效率制定新標(biāo)準(zhǔn)。隨著組織繼續(xù)擴展AI運營,這些專用解決方案將在快速發(fā)展的技術(shù)環(huán)境中變得更加重要。/ S. V: w2 g$ T6 C2 Z4 D8 [5 U
5 W9 l6 p+ |. X
參考文獻
$ u' p1 n( i7 t6 V4 l# ?[1] Fedorov and I. Znamenskiy, "Designing in-house server solution for hosting modern GPUs," Nebius AI, Tech. Rep. 5436, Oct. 2024.2 F9 J4 c/ l) X1 y) E& v5 c
7 q$ M2 l4 u2 O
END0 f% i, E6 X& g
, Y8 k! ]( \' a$ {& |" P- K# N

/ M0 c- y/ R8 R, a2 s! [軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
. D! K8 V# ~, F8 J7 x) E點擊左下角"閱讀原文"馬上申請
$ r4 o' H3 e7 G7 {3 z- q3 c2 {) `$ f7 j5 ?% k% r2 O% l( S) u: V3 V! i
歡迎轉(zhuǎn)載
  A, D7 o( Z& H/ T/ }3 I
5 F* m, R: d# o+ v8 z/ `4 z轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!1 ^) U5 Y; T! R) w7 N' K# D' m

# |' W: h- P4 n. Q
9 H! `9 [. s4 ?  j4 C$ }, q9 w

7 @' Y1 g+ U$ d( r* n2 R- v
  u$ t& l8 Y0 K0 n5 e" l/ Y$ Z* ?2 {, H8 ?
關(guān)注我們
* ?# Y; O9 |! E0 K; G) G
) W0 j& q5 A5 Y7 X/ p3 k3 D

+ J" k' e, F; i: p& P: q' L+ } 6 x7 e  |- m: ?% R8 n

& G& X# w* y& O. r' c/ u4 n" S
9 A; ~2 f! x2 j7 j9 Y0 ?

' C+ Z9 I! A3 r; ^2 R ! C9 J$ w) G/ G' k. V8 X4 C
                      . |1 R) W+ z" M
1 ], G1 s$ |- M) e3 L2 k4 b8 D
7 E8 [' L( \- `% o; C

) P) w, g/ J+ U1 m2 ~關(guān)于我們:
& g, t5 l' R' g# d3 ~  C- z深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。% G8 d* F0 x8 s* L; J) ]2 X; I
/ _* n. M& w% z4 ^
http://www.latitudeda.com/# r" }1 V$ }! |3 ?
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
回復(fù)

使用道具 舉報

發(fā)表回復(fù)

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規(guī)則


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表