電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 77|回復(fù): 0
收起左側(cè)

OCP2024 | 新一代人工智能服務(wù)器設(shè)計

[復(fù)制鏈接]

686

主題

686

帖子

5863

積分

四級會員

Rank: 4

積分
5863
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-11-20 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序?yàn)g覽 |閱讀模式
引言
3 N- `! _6 _$ ]0 X) g在人工智能和機(jī)器學(xué)習(xí)快速發(fā)展的背景下,對專用硬件基礎(chǔ)設(shè)施的需求持續(xù)增長。本文探討了創(chuàng)新的服務(wù)器設(shè)計方法,針對現(xiàn)代GPU工作負(fù)載進(jìn)行優(yōu)化,這些內(nèi)容來自Nebius AI在定制服務(wù)器解決方案方面的突破性發(fā)展[1]。
' }3 @% U: C+ \+ k, A3 Z8 @+ g# L
$ V; v  P4 G- d" ], ]8 g7 q0 c1 |) }; @# l* B5 r
服務(wù)器架構(gòu)的演進(jìn); _) q1 m' c5 x  c2 _, G$ k- y6 m
傳統(tǒng)服務(wù)器設(shè)計在托管現(xiàn)代GPU時面臨諸多局限性,特別是在AI工作負(fù)載方面。主要挑戰(zhàn)包括散熱效率低下、部署程序復(fù)雜以及固件專有限制。這些限制推動了對專用解決方案的需求。% r* f; `+ z# K2 M* E5 ]
) @4 `' ~0 J) L) l! g/ ~2 o
針對AI工作負(fù)載的高級服務(wù)器規(guī)格5 n& g) [; m( X1 {- E
新一代AI服務(wù)器引入了革命性的規(guī)格設(shè)計,專門用于高性能計算。這些服務(wù)器與最新的NVIDIA HGX H100/H200 GPU兼容,同時在散熱、可訪問性和維護(hù)方面融入多項創(chuàng)新。
  c! Z( h3 ~6 J( Q) O3 z; q  l
- A( U2 E8 Y) S% d: L  c3 K* F圖1:全面的服務(wù)器規(guī)格,展示與NVIDIA HGX H100/H200的兼容性、免工具安裝功能和先進(jìn)的散熱系統(tǒng)設(shè)計。
' H4 P" f. e6 M6 Q" L* z8 g0 P& R4 M: d5 e' J% R
革命性的無線纜設(shè)計
2 \# g& T9 D7 F0 g% t8 D- M現(xiàn)代服務(wù)器設(shè)計中最顯著的創(chuàng)新之一是消除了主板和GPU組件之間的傳統(tǒng)線纜連接。這一進(jìn)步解決了多個長期困擾服務(wù)器維護(hù)和可靠性的問題。" g* ~6 V9 N2 R% G0 r
( [4 w4 C9 Q+ W7 P, V8 c* K3 D% M& v
% y9 e: |4 h  O" T3 H2 I
圖2:傳統(tǒng)線纜連接與新型無線纜設(shè)計的對比,突出顯示改進(jìn)的可靠性和維護(hù)優(yōu)勢。
' O7 L7 r& j. l) G1 a5 W4 z
* B& c. O+ G! t7 O優(yōu)化的散熱架構(gòu)
, ~5 h$ |9 K* m1 r' ^7 a3 j散熱管理在服務(wù)器設(shè)計中仍是核心因素,尤其是對于高性能AI工作負(fù)載。新設(shè)計實(shí)現(xiàn)了一個復(fù)雜的散熱系統(tǒng),為CPU和GPU組件設(shè)置獨(dú)立區(qū)域。0 l  R0 [; `! d* z+ @
. \: @8 x) E, r) O6 w5 Q
圖3:先進(jìn)的散熱系統(tǒng)設(shè)計,具有獨(dú)立風(fēng)扇控制系統(tǒng)的分離式CPU和GPU區(qū)域。4 k7 T$ c$ @/ H6 G
1 |! @8 _. G4 I( H- R8 h/ j
性能和效率指標(biāo)! h. ^9 |" G2 r! U! M! A: W5 }- a
通過比較性能指標(biāo),特別是在不同運(yùn)行溫度下的功耗,清晰地展示了這些設(shè)計創(chuàng)新的效果。
! \! A; O' n) S5 B( H
# J3 V: H; }3 w  k$ c/ u, t" r圖4:不同進(jìn)氣溫度下Nebius HGX與標(biāo)準(zhǔn)19" HGX服務(wù)器的功耗比較。
9 J4 f  T3 V) x! r. |1 A( _8 N
  u( c! Y* \. o: f9 n* Q維護(hù)和可訪問性特點(diǎn)5 d, _) T( I3 F6 @
現(xiàn)代服務(wù)器設(shè)計優(yōu)先考慮維護(hù)便利性和組件快速訪問,顯著減少停機(jī)時間和運(yùn)營成本。; \$ s! \# n& T+ Q4 l( J& |. b" X& l  _
# Z0 c% B& Z9 [9 O/ f+ Y  @' T
圖5:免工具設(shè)計特點(diǎn),實(shí)現(xiàn)快速組件訪問和維護(hù)程序。! F6 h1 r2 ^2 y& B) g& Q
0 a# |; ]. q; L9 L7 A. R
總擁有成本優(yōu)勢
  {$ M, G. y4 `) `$ q這些設(shè)計創(chuàng)新的綜合效果轉(zhuǎn)化為顯著的總擁有成本(TCO)優(yōu)勢。通過各種優(yōu)化實(shí)現(xiàn)了資本支出和運(yùn)營支出的雙重優(yōu)勢:4 l, @2 v) e" F$ M2 i

- S* J) L% d' V圖6:總擁有成本優(yōu)勢的全面分析,包括資本支出和運(yùn)營支出的優(yōu)勢。- C4 ]) m3 w, E: O9 R. i

. Z- l4 F1 F( `% k! u2 x未來發(fā)展和應(yīng)用/ y* h/ l9 D: L' ]  ^  ?
這里概述的服務(wù)器設(shè)計原則正在擴(kuò)展到各種用例,包括推理和閃存存儲應(yīng)用。這些發(fā)展展示了新架構(gòu)的多樣性和可擴(kuò)展性。4 L0 A. I6 l8 b9 `' }1 r; h
, _" m& K5 d# v# C, L. S
圖7:完整服務(wù)器系列概述,展示從ML/AI到計算和存儲的各種應(yīng)用。
/ d3 g6 P* L( z" M# ]  u& B" Y0 J, \4 e# A2 i% ]
結(jié)論* m$ [- h7 h( c* U& ^4 i3 z, \+ _
用于AI工作負(fù)載的服務(wù)器設(shè)計進(jìn)步代表了數(shù)據(jù)中心基礎(chǔ)設(shè)施的突破。通過解決散熱管理、維護(hù)和組件集成等關(guān)鍵挑戰(zhàn),這些新設(shè)計正在為AI計算基礎(chǔ)設(shè)施的性能和效率制定新標(biāo)準(zhǔn)。隨著組織繼續(xù)擴(kuò)展AI運(yùn)營,這些專用解決方案將在快速發(fā)展的技術(shù)環(huán)境中變得更加重要。4 c7 M2 j4 e% o& ?6 M
+ R! ]+ `" {/ M& e+ Q' @2 a( O1 }
參考文獻(xiàn)5 m" p8 w$ y6 f# c) F
[1] Fedorov and I. Znamenskiy, "Designing in-house server solution for hosting modern GPUs," Nebius AI, Tech. Rep. 5436, Oct. 2024.
; L2 k1 j+ ]3 x
& m) |+ g( w% h" P  m0 N/ G9 iEND
& @, n; Z/ K1 G; W

, W( l) Y; O1 r$ W1 c( h$ `$ ?" |
+ d- n7 f) {/ u軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。- V: w1 Z% p9 F  z1 `2 o
點(diǎn)擊左下角"閱讀原文"馬上申請
- n9 [) b5 E' g8 \1 W  c/ h
$ l. d) L5 q2 t! p歡迎轉(zhuǎn)載) j7 i! U2 l1 [( ^% Y) |9 v

- a3 R% n  W- R. d" x, O轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
/ {" F7 M' i7 L8 ]; t7 F7 o+ M. }4 W2 L8 P- Y$ v+ d
+ L2 c2 E: r4 ^2 ]8 B2 E1 t6 t; L

3 K' ~8 H7 q, m) E: J( `/ O" N7 z 0 n/ z7 i7 h) z

2 `/ r. Q4 r3 v! n& r$ h關(guān)注我們
/ a  H# L/ _# l  c
5 F2 L: m; }% S4 V( [

+ W4 I+ V) y# m
6 d- u8 W1 o2 g) T

, a  z- h' b; \7 N% O% u
0 Q. a* s# q" l! W9 R
: Z7 X$ H( h4 C9 C

9 V# l6 K$ E( @5 b
                     
- ~8 r+ Y$ e9 ?4 ?7 n3 D2 c7 m6 s) t  T2 r
8 p/ q; |5 n9 @; K1 v0 c. R
; U4 [- Q; K% O* y% [1 a$ c- S
關(guān)于我們:
2 S2 p( {! Y: ~' {6 {; w% c深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。. V& L, E' b4 O% V9 a1 v6 G

- i+ N2 {2 p. s2 h+ f  h" r* _+ u9 Phttp://www.latitudeda.com/) d# n8 d1 l) M4 D/ M
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
回復(fù)

使用道具 舉報

發(fā)表回復(fù)

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規(guī)則


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表