電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 78|回復(fù): 0
收起左側(cè)

OCP2024 | 新一代人工智能服務(wù)器設(shè)計(jì)

[復(fù)制鏈接]

686

主題

686

帖子

5863

積分

四級(jí)會(huì)員

Rank: 4

積分
5863
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-11-20 08:00:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |正序?yàn)g覽 |閱讀模式
引言
* C- S0 E# a/ p& C在人工智能和機(jī)器學(xué)習(xí)快速發(fā)展的背景下,對(duì)專(zhuān)用硬件基礎(chǔ)設(shè)施的需求持續(xù)增長(zhǎng)。本文探討了創(chuàng)新的服務(wù)器設(shè)計(jì)方法,針對(duì)現(xiàn)代GPU工作負(fù)載進(jìn)行優(yōu)化,這些內(nèi)容來(lái)自Nebius AI在定制服務(wù)器解決方案方面的突破性發(fā)展[1]。4 H( i- i8 G) L2 R8 ^3 f
  S1 `0 T1 G3 M7 M

. X. \2 }! g2 _$ _' W9 k服務(wù)器架構(gòu)的演進(jìn)3 A; N1 G7 n( j1 a- H% U- C" @
傳統(tǒng)服務(wù)器設(shè)計(jì)在托管現(xiàn)代GPU時(shí)面臨諸多局限性,特別是在AI工作負(fù)載方面。主要挑戰(zhàn)包括散熱效率低下、部署程序復(fù)雜以及固件專(zhuān)有限制。這些限制推動(dòng)了對(duì)專(zhuān)用解決方案的需求。) M# Z' D( A( Q. C1 r) |
6 L7 G, q' P5 ?0 l* k( h
針對(duì)AI工作負(fù)載的高級(jí)服務(wù)器規(guī)格
* b; Y; Y5 F  B( p; ^& o* b5 h! x新一代AI服務(wù)器引入了革命性的規(guī)格設(shè)計(jì),專(zhuān)門(mén)用于高性能計(jì)算。這些服務(wù)器與最新的NVIDIA HGX H100/H200 GPU兼容,同時(shí)在散熱、可訪問(wèn)性和維護(hù)方面融入多項(xiàng)創(chuàng)新。1 l; h; v# ]7 \$ u  V) Z/ L) k

$ w. c" ]; j0 l& P; N1 n圖1:全面的服務(wù)器規(guī)格,展示與NVIDIA HGX H100/H200的兼容性、免工具安裝功能和先進(jìn)的散熱系統(tǒng)設(shè)計(jì)。; O0 g( S" N2 G6 G

% T% M  M9 s$ v9 y8 o' v革命性的無(wú)線纜設(shè)計(jì)
& G$ \4 W7 T; T6 A+ l/ O現(xiàn)代服務(wù)器設(shè)計(jì)中最顯著的創(chuàng)新之一是消除了主板和GPU組件之間的傳統(tǒng)線纜連接。這一進(jìn)步解決了多個(gè)長(zhǎng)期困擾服務(wù)器維護(hù)和可靠性的問(wèn)題。% x3 h' \6 t. z/ Y2 _

+ ^" e  Y2 A1 h/ p4 D( z $ R0 g* m# F8 k% @: |- W, [
圖2:傳統(tǒng)線纜連接與新型無(wú)線纜設(shè)計(jì)的對(duì)比,突出顯示改進(jìn)的可靠性和維護(hù)優(yōu)勢(shì)。
! c' s0 B& u4 T) x6 D/ V; n5 s( O+ o7 H
優(yōu)化的散熱架構(gòu)
$ \4 Z" V5 a$ b3 }, L+ B$ W散熱管理在服務(wù)器設(shè)計(jì)中仍是核心因素,尤其是對(duì)于高性能AI工作負(fù)載。新設(shè)計(jì)實(shí)現(xiàn)了一個(gè)復(fù)雜的散熱系統(tǒng),為CPU和GPU組件設(shè)置獨(dú)立區(qū)域。7 n! o: t; I6 v- g3 A! w
8 q4 p& D% D2 o/ S3 N# f
圖3:先進(jìn)的散熱系統(tǒng)設(shè)計(jì),具有獨(dú)立風(fēng)扇控制系統(tǒng)的分離式CPU和GPU區(qū)域。
: t1 T# x' U6 Q6 {/ U
& `& O8 o3 n1 h; K4 I( x1 D性能和效率指標(biāo)9 b5 q; ~, Y2 F- t9 b, o( v4 h' |% l
通過(guò)比較性能指標(biāo),特別是在不同運(yùn)行溫度下的功耗,清晰地展示了這些設(shè)計(jì)創(chuàng)新的效果。( T. V1 A! G7 M" N# \/ P
! k. H, x% G5 v2 y) u2 f
圖4:不同進(jìn)氣溫度下Nebius HGX與標(biāo)準(zhǔn)19" HGX服務(wù)器的功耗比較。
5 m& j! K  A( @  p5 \" u# W. g6 E  |  ~6 n# J1 Y
維護(hù)和可訪問(wèn)性特點(diǎn)+ b  D4 Q, l! _, t
現(xiàn)代服務(wù)器設(shè)計(jì)優(yōu)先考慮維護(hù)便利性和組件快速訪問(wèn),顯著減少停機(jī)時(shí)間和運(yùn)營(yíng)成本。% c  _5 l- c" d/ k! C& n  q
; i% `; O! f+ _8 f9 o1 S
圖5:免工具設(shè)計(jì)特點(diǎn),實(shí)現(xiàn)快速組件訪問(wèn)和維護(hù)程序。2 Q# ?. n1 s! |+ o
7 W) o( t+ \# H
總擁有成本優(yōu)勢(shì)
4 u+ L% o( M* a  x7 l' S這些設(shè)計(jì)創(chuàng)新的綜合效果轉(zhuǎn)化為顯著的總擁有成本(TCO)優(yōu)勢(shì)。通過(guò)各種優(yōu)化實(shí)現(xiàn)了資本支出和運(yùn)營(yíng)支出的雙重優(yōu)勢(shì):
; ?4 b' j8 G5 B' I
( b! l/ ]! G5 _& Z# j+ ~圖6:總擁有成本優(yōu)勢(shì)的全面分析,包括資本支出和運(yùn)營(yíng)支出的優(yōu)勢(shì)。' ^8 p2 W4 _: i0 b. D

1 M. F: j. H3 q1 [* y3 H' t& N未來(lái)發(fā)展和應(yīng)用
" Z; |6 U% Y  B+ U/ l& i這里概述的服務(wù)器設(shè)計(jì)原則正在擴(kuò)展到各種用例,包括推理和閃存存儲(chǔ)應(yīng)用。這些發(fā)展展示了新架構(gòu)的多樣性和可擴(kuò)展性。
3 G+ V5 s0 ?# C3 T: A" [
9 }& F: k/ V6 h+ S1 m0 @" ~, h. A圖7:完整服務(wù)器系列概述,展示從ML/AI到計(jì)算和存儲(chǔ)的各種應(yīng)用。
; i5 c; y# P- n3 U) G- V% Q
9 C, ?+ `% `7 c: V! T, c結(jié)論
5 c+ d) [4 [9 M& C- L7 ^用于AI工作負(fù)載的服務(wù)器設(shè)計(jì)進(jìn)步代表了數(shù)據(jù)中心基礎(chǔ)設(shè)施的突破。通過(guò)解決散熱管理、維護(hù)和組件集成等關(guān)鍵挑戰(zhàn),這些新設(shè)計(jì)正在為AI計(jì)算基礎(chǔ)設(shè)施的性能和效率制定新標(biāo)準(zhǔn)。隨著組織繼續(xù)擴(kuò)展AI運(yùn)營(yíng),這些專(zhuān)用解決方案將在快速發(fā)展的技術(shù)環(huán)境中變得更加重要。  k8 M+ J: |% S: L9 q9 u- U  D
7 v* d3 d- V' X9 ]
參考文獻(xiàn)) x4 N2 p1 n! b9 H  s' ]; F* a
[1] Fedorov and I. Znamenskiy, "Designing in-house server solution for hosting modern GPUs," Nebius AI, Tech. Rep. 5436, Oct. 2024.. h, }0 n" T& S  o) _% D
! [0 E8 Y, B& o& F( ^+ E, W
END
5 U7 I( k0 d  [. k5 p4 u; y
7 H% q$ Y- Q2 X0 {2 q! g7 A( s

7 t' h3 n+ t* ^6 D軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
9 f4 T- _" o& V% A5 x點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
; T: Y, E8 J0 A! n9 q) R' H
' u: o! J, m' U' u歡迎轉(zhuǎn)載
) {; q* s) C2 I8 ]& x2 L! Y0 i6 v( ?* i1 d) d, e7 A3 x) {
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!: U9 c% k3 |6 l4 b
/ N4 o2 [# {3 }  _% p; P

/ I% d% {4 U, ?2 D1 U
. ^7 x0 H8 ^) A

4 q5 j* F4 k4 l% W/ a1 D# `5 v* Z" T4 f6 V* s
關(guān)注我們
+ Y+ f  @$ f, b3 G0 m. w$ T
, ~; w4 Y* q7 U! W8 ^* y4 m
; x4 O. `, ~0 Q  R

# `5 V$ Z& P8 p9 k7 p0 f

" t6 E8 i6 E( K  ?; t5 p ! e/ x  @  u, |* q- g5 Y) ?8 G0 s5 a
* m; T$ v0 y8 `' ]

3 J! P# m- Q0 r; T: _+ `/ L: l* F
                      , W" s, \- S( N! b$ j/ U" A% `7 e
- ~3 K* z* S+ j1 i4 @. x) z- ]0 d
0 [( E8 q) u: J: G9 A+ a  ]5 ]

) C& U7 i" o4 b6 M4 R關(guān)于我們:* ^" M$ s/ d5 j
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專(zhuān)注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
/ t4 ]) {4 N, P0 s' y
- s# B5 Q# H' |* Z9 |' e& B# ^( Mhttp://www.latitudeda.com/
' T; R1 F' O/ @* z4 b5 c(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)

發(fā)表回復(fù)

本版積分規(guī)則


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表