|
引言5 Q! o- ?, _9 e3 o2 Y; z: i5 h
在人工智能和機器學(xué)習(xí)快速發(fā)展的背景下,對專用硬件基礎(chǔ)設(shè)施的需求持續(xù)增長。本文探討了創(chuàng)新的服務(wù)器設(shè)計方法,針對現(xiàn)代GPU工作負(fù)載進行優(yōu)化,這些內(nèi)容來自Nebius AI在定制服務(wù)器解決方案方面的突破性發(fā)展[1]。
9 X+ A8 G) _) @1 p5 d
2jmoly3ntj46404966139.png (370.71 KB, 下載次數(shù): 1)
下載附件
保存到相冊
2jmoly3ntj46404966139.png
2024-11-22 02:43 上傳
3 e+ U ~ q( J! {* X
3 Y$ l; G- A) S) l: z2 E. l服務(wù)器架構(gòu)的演進" f. N3 S( f. h) C# L" Z# r# P
傳統(tǒng)服務(wù)器設(shè)計在托管現(xiàn)代GPU時面臨諸多局限性,特別是在AI工作負(fù)載方面。主要挑戰(zhàn)包括散熱效率低下、部署程序復(fù)雜以及固件專有限制。這些限制推動了對專用解決方案的需求。# u! t/ d Y7 X5 M0 V3 i
$ h. N- s1 B2 H X9 Z+ d
針對AI工作負(fù)載的高級服務(wù)器規(guī)格
6 I3 Q, }; ^4 J- k新一代AI服務(wù)器引入了革命性的規(guī)格設(shè)計,專門用于高性能計算。這些服務(wù)器與最新的NVIDIA HGX H100/H200 GPU兼容,同時在散熱、可訪問性和維護方面融入多項創(chuàng)新。1 b9 b) h/ [' B \& h/ m
wbctvxarcwe6404966239.png (262.86 KB, 下載次數(shù): 1)
下載附件
保存到相冊
wbctvxarcwe6404966239.png
2024-11-22 02:43 上傳
E7 m: W4 U' l/ R* m8 ~$ ?圖1:全面的服務(wù)器規(guī)格,展示與NVIDIA HGX H100/H200的兼容性、免工具安裝功能和先進的散熱系統(tǒng)設(shè)計。
# Y# P8 @1 Y ~* ?. T# r- M1 Z% E5 P! W! j
革命性的無線纜設(shè)計* d% _: `1 V3 P, h& {6 Y3 k
現(xiàn)代服務(wù)器設(shè)計中最顯著的創(chuàng)新之一是消除了主板和GPU組件之間的傳統(tǒng)線纜連接。這一進步解決了多個長期困擾服務(wù)器維護和可靠性的問題。; j H. b4 C( c2 c$ M9 i
bs2a13aedc16404966340.png (428.03 KB, 下載次數(shù): 1)
下載附件
保存到相冊
bs2a13aedc16404966340.png
2024-11-22 02:43 上傳
8 y# j$ G4 {# m5 D- a
djntygu1ont6404966440.png (633.56 KB, 下載次數(shù): 0)
下載附件
保存到相冊
djntygu1ont6404966440.png
2024-11-22 02:43 上傳
. v" ]' W& g" b7 y/ [6 r1 L t圖2:傳統(tǒng)線纜連接與新型無線纜設(shè)計的對比,突出顯示改進的可靠性和維護優(yōu)勢。# o; q! H6 P+ S
2 t; X/ u: k5 i6 H
優(yōu)化的散熱架構(gòu)8 D! S. g9 Q1 J4 `
散熱管理在服務(wù)器設(shè)計中仍是核心因素,尤其是對于高性能AI工作負(fù)載。新設(shè)計實現(xiàn)了一個復(fù)雜的散熱系統(tǒng),為CPU和GPU組件設(shè)置獨立區(qū)域。
. i9 v3 z: v. D6 M; [
edco4ytxas16404966541.png (392.89 KB, 下載次數(shù): 0)
下載附件
保存到相冊
edco4ytxas16404966541.png
2024-11-22 02:43 上傳
V$ t. M7 D& P+ E4 O2 y- V圖3:先進的散熱系統(tǒng)設(shè)計,具有獨立風(fēng)扇控制系統(tǒng)的分離式CPU和GPU區(qū)域。
0 S4 @- q$ H$ F* q$ y
; l% j- H. H- G性能和效率指標(biāo)
4 k- @& h6 \) q& b通過比較性能指標(biāo),特別是在不同運行溫度下的功耗,清晰地展示了這些設(shè)計創(chuàng)新的效果。
' s4 s" [8 j$ ^3 Y
kdkl1vskv326404966641.png (178.33 KB, 下載次數(shù): 1)
下載附件
保存到相冊
kdkl1vskv326404966641.png
2024-11-22 02:43 上傳
! _: w6 v) _( J1 W i! B( z圖4:不同進氣溫度下Nebius HGX與標(biāo)準(zhǔn)19" HGX服務(wù)器的功耗比較。
# c* Z. }- K+ ?9 I3 m. A* g1 F/ w8 _0 g) G# d
維護和可訪問性特點8 s9 s7 A( F, I0 C0 Z
現(xiàn)代服務(wù)器設(shè)計優(yōu)先考慮維護便利性和組件快速訪問,顯著減少停機時間和運營成本。) @. M5 ]% D: G" {* A; R
haefqxoj3uu6404966741.png (559.89 KB, 下載次數(shù): 2)
下載附件
保存到相冊
haefqxoj3uu6404966741.png
2024-11-22 02:43 上傳
* b% w6 D* i0 t; m$ \1 ^
圖5:免工具設(shè)計特點,實現(xiàn)快速組件訪問和維護程序。1 b) X. |; V& b% ^; h! @1 X
1 y6 U8 A" c. i9 ?總擁有成本優(yōu)勢
0 o$ h( j; a2 P. r- [5 K這些設(shè)計創(chuàng)新的綜合效果轉(zhuǎn)化為顯著的總擁有成本(TCO)優(yōu)勢。通過各種優(yōu)化實現(xiàn)了資本支出和運營支出的雙重優(yōu)勢:; J9 ?9 i* H" k8 ~9 n8 ]2 \
ezisqdw5yks6404966841.png (139.77 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ezisqdw5yks6404966841.png
2024-11-22 02:43 上傳
. C$ x) h% b/ E- {: A# P' g+ O: O圖6:總擁有成本優(yōu)勢的全面分析,包括資本支出和運營支出的優(yōu)勢。
# ~6 c2 m/ Y5 y; Y* F* }" _ n2 [6 _) {; D% J9 q, Y+ a6 x
未來發(fā)展和應(yīng)用
- r! H8 G% P/ H. g這里概述的服務(wù)器設(shè)計原則正在擴展到各種用例,包括推理和閃存存儲應(yīng)用。這些發(fā)展展示了新架構(gòu)的多樣性和可擴展性。2 Q& T, d0 e+ J, \. q& ^/ h
jy0s24jl0246404966942.png (355.84 KB, 下載次數(shù): 1)
下載附件
保存到相冊
jy0s24jl0246404966942.png
2024-11-22 02:43 上傳
; x. a1 N) D, e. u; n9 E9 u( U圖7:完整服務(wù)器系列概述,展示從ML/AI到計算和存儲的各種應(yīng)用。
7 X9 I+ ~, ~4 a9 _6 [0 d0 l4 ^5 S/ d
結(jié)論. e% e9 |. V2 o1 P8 ~9 Q8 {
用于AI工作負(fù)載的服務(wù)器設(shè)計進步代表了數(shù)據(jù)中心基礎(chǔ)設(shè)施的突破。通過解決散熱管理、維護和組件集成等關(guān)鍵挑戰(zhàn),這些新設(shè)計正在為AI計算基礎(chǔ)設(shè)施的性能和效率制定新標(biāo)準(zhǔn)。隨著組織繼續(xù)擴展AI運營,這些專用解決方案將在快速發(fā)展的技術(shù)環(huán)境中變得更加重要。/ S. V: w2 g$ T6 C2 Z4 D8 [5 U
5 W9 l6 p+ |. X
參考文獻
$ u' p1 n( i7 t6 V4 l# ?[1] Fedorov and I. Znamenskiy, "Designing in-house server solution for hosting modern GPUs," Nebius AI, Tech. Rep. 5436, Oct. 2024.2 F9 J4 c/ l) X1 y) E& v5 c
7 q$ M2 l4 u2 O
END0 f% i, E6 X& g
, Y8 k! ]( \' a$ {& |" P- K# N
/ M0 c- y/ R8 R, a2 s! [軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
. D! K8 V# ~, F8 J7 x) E點擊左下角"閱讀原文"馬上申請
$ r4 o' H3 e7 G7 {3 z- q3 c2 {) `$ f7 j5 ?% k% r2 O% l( S) u: V3 V! i
歡迎轉(zhuǎn)載
A, D7 o( Z& H/ T/ }3 I
5 F* m, R: d# o+ v8 z/ `4 z轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!1 ^) U5 Y; T! R) w7 N' K# D' m
# |' W: h- P4 n. Q
9 H! `9 [. s4 ? j4 C$ }, q9 w
7 @' Y1 g+ U$ d( r* n2 R- v
hikf1f4314y6404967042.gif (16.04 KB, 下載次數(shù): 1)
下載附件
保存到相冊
hikf1f4314y6404967042.gif
2024-11-22 02:43 上傳
u$ t& l8 Y0 K0 n5 e" l/ Y$ Z* ?2 {, H8 ?
關(guān)注我們
* ?# Y; O9 |! E0 K; G) G
) W0 j& q5 A5 Y7 X/ p3 k3 D
+ J" k' e, F; i: p& P: q' L+ }
rabmxlc5ffh6404967142.png (31.33 KB, 下載次數(shù): 1)
下載附件
保存到相冊
rabmxlc5ffh6404967142.png
2024-11-22 02:43 上傳
6 x7 e |- m: ?% R8 n
|
& G& X# w* y& O. r' c/ u4 n" S
2wotga1zkko6404967242.png (82.79 KB, 下載次數(shù): 2)
下載附件
保存到相冊
2wotga1zkko6404967242.png
2024-11-22 02:43 上傳
9 A; ~2 f! x2 j7 j9 Y0 ? |
' C+ Z9 I! A3 r; ^2 R
lqwgpte4d326404967342.png (21.52 KB, 下載次數(shù): 2)
下載附件
保存到相冊
lqwgpte4d326404967342.png
2024-11-22 02:43 上傳
! C9 J$ w) G/ G' k. V8 X4 C
| . |1 R) W+ z" M
1 ], G1 s$ |- M) e3 L2 k4 b8 D
7 E8 [' L( \- `% o; C
) P) w, g/ J+ U1 m2 ~關(guān)于我們:
& g, t5 l' R' g# d3 ~ C- z深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。% G8 d* F0 x8 s* L; J) ]2 X; I
/ _* n. M& w% z4 ^
http://www.latitudeda.com/# r" }1 V$ }! |3 ?
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|