電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 80|回復(fù): 0
收起左側(cè)

OCP2024 | 新一代人工智能服務(wù)器設(shè)計(jì)

[復(fù)制鏈接]

686

主題

686

帖子

5863

積分

四級(jí)會(huì)員

Rank: 4

積分
5863
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-11-20 08:00:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言/ Y& Y, P3 `3 P
在人工智能和機(jī)器學(xué)習(xí)快速發(fā)展的背景下,對(duì)專用硬件基礎(chǔ)設(shè)施的需求持續(xù)增長。本文探討了創(chuàng)新的服務(wù)器設(shè)計(jì)方法,針對(duì)現(xiàn)代GPU工作負(fù)載進(jìn)行優(yōu)化,這些內(nèi)容來自Nebius AI在定制服務(wù)器解決方案方面的突破性發(fā)展[1]。7 ~8 j; ?9 ]& v$ e8 d! P- A

( |. \( F; l1 Z3 t; d, Y7 m( B3 g$ X# ]
服務(wù)器架構(gòu)的演進(jìn)3 Y7 M: T3 }' I: {4 i9 |  L
傳統(tǒng)服務(wù)器設(shè)計(jì)在托管現(xiàn)代GPU時(shí)面臨諸多局限性,特別是在AI工作負(fù)載方面。主要挑戰(zhàn)包括散熱效率低下、部署程序復(fù)雜以及固件專有限制。這些限制推動(dòng)了對(duì)專用解決方案的需求。0 Q) ?2 e- O% O, N9 c1 A! e) H

4 B+ f& Q& b# ~% w! O. P針對(duì)AI工作負(fù)載的高級(jí)服務(wù)器規(guī)格' }- f9 y$ P& A* V  f- _
新一代AI服務(wù)器引入了革命性的規(guī)格設(shè)計(jì),專門用于高性能計(jì)算。這些服務(wù)器與最新的NVIDIA HGX H100/H200 GPU兼容,同時(shí)在散熱、可訪問性和維護(hù)方面融入多項(xiàng)創(chuàng)新。" O6 p9 `: n  l0 u$ r

  |* n( M/ E! A7 O% }* R1 f圖1:全面的服務(wù)器規(guī)格,展示與NVIDIA HGX H100/H200的兼容性、免工具安裝功能和先進(jìn)的散熱系統(tǒng)設(shè)計(jì)。
5 ~0 ?9 c4 K  K/ ]7 d# h
9 U6 x& ]1 @# K8 p9 f! e革命性的無線纜設(shè)計(jì)
4 w. A0 {0 r- \' L2 [) [現(xiàn)代服務(wù)器設(shè)計(jì)中最顯著的創(chuàng)新之一是消除了主板和GPU組件之間的傳統(tǒng)線纜連接。這一進(jìn)步解決了多個(gè)長期困擾服務(wù)器維護(hù)和可靠性的問題。7 E. o: m, c/ D

1 u7 b: ^" P1 f' m! Q6 ]8 Q7 f: L
1 x$ K' e6 S) c9 C' _! y' f0 w圖2:傳統(tǒng)線纜連接與新型無線纜設(shè)計(jì)的對(duì)比,突出顯示改進(jìn)的可靠性和維護(hù)優(yōu)勢(shì)。
& u+ W4 A" l  d. E
; W1 x( _$ `/ n4 \8 ]& D8 ~" i優(yōu)化的散熱架構(gòu)7 f$ [+ P) G7 M: w
散熱管理在服務(wù)器設(shè)計(jì)中仍是核心因素,尤其是對(duì)于高性能AI工作負(fù)載。新設(shè)計(jì)實(shí)現(xiàn)了一個(gè)復(fù)雜的散熱系統(tǒng),為CPU和GPU組件設(shè)置獨(dú)立區(qū)域。  P9 n) f+ a/ R' f% a! t& u

2 \, l% w5 ^1 d. A$ b; O圖3:先進(jìn)的散熱系統(tǒng)設(shè)計(jì),具有獨(dú)立風(fēng)扇控制系統(tǒng)的分離式CPU和GPU區(qū)域。
$ B, X; V/ q2 u6 p
/ J% G8 c# Z: c* S- x4 H性能和效率指標(biāo): I' J3 N7 X# F& a8 T
通過比較性能指標(biāo),特別是在不同運(yùn)行溫度下的功耗,清晰地展示了這些設(shè)計(jì)創(chuàng)新的效果。# p4 |: d2 e0 K& N' R
* `/ S4 R, F% X6 d/ t, P
圖4:不同進(jìn)氣溫度下Nebius HGX與標(biāo)準(zhǔn)19" HGX服務(wù)器的功耗比較。
* p/ E9 b" v, S7 l0 S) K" W' M5 L" {8 t& x
維護(hù)和可訪問性特點(diǎn)
; y7 [$ a: C, E# D現(xiàn)代服務(wù)器設(shè)計(jì)優(yōu)先考慮維護(hù)便利性和組件快速訪問,顯著減少停機(jī)時(shí)間和運(yùn)營成本。
& {* u7 q5 k- ~8 H * P8 j2 l1 B3 g, \, I" h* \
圖5:免工具設(shè)計(jì)特點(diǎn),實(shí)現(xiàn)快速組件訪問和維護(hù)程序。
: s* ]3 z2 ?% [% ?" C* ]  C
9 W! p: P( Z/ ~9 r總擁有成本優(yōu)勢(shì), k  b* s/ ^/ E# j1 Q9 J* D: s: o
這些設(shè)計(jì)創(chuàng)新的綜合效果轉(zhuǎn)化為顯著的總擁有成本(TCO)優(yōu)勢(shì)。通過各種優(yōu)化實(shí)現(xiàn)了資本支出和運(yùn)營支出的雙重優(yōu)勢(shì):
  V3 w/ I( u% B4 X! V* A 7 ^4 V* ]1 x4 B, i
圖6:總擁有成本優(yōu)勢(shì)的全面分析,包括資本支出和運(yùn)營支出的優(yōu)勢(shì)。
! X" N$ w4 g% S3 j* B% m
3 ?3 c# C' S- Z! k+ w: C: ^: d% w& O未來發(fā)展和應(yīng)用
3 z! Y$ n* j6 Z' x% H- O這里概述的服務(wù)器設(shè)計(jì)原則正在擴(kuò)展到各種用例,包括推理和閃存存儲(chǔ)應(yīng)用。這些發(fā)展展示了新架構(gòu)的多樣性和可擴(kuò)展性。
6 w  Q# a" W2 a7 N+ U4 G8 x 2 F$ k5 t5 w1 R8 s$ ]; H
圖7:完整服務(wù)器系列概述,展示從ML/AI到計(jì)算和存儲(chǔ)的各種應(yīng)用。5 e7 e; J" n& j# `1 S, u

. W0 S7 w: n7 H* r結(jié)論
) X4 T* Q% `1 P用于AI工作負(fù)載的服務(wù)器設(shè)計(jì)進(jìn)步代表了數(shù)據(jù)中心基礎(chǔ)設(shè)施的突破。通過解決散熱管理、維護(hù)和組件集成等關(guān)鍵挑戰(zhàn),這些新設(shè)計(jì)正在為AI計(jì)算基礎(chǔ)設(shè)施的性能和效率制定新標(biāo)準(zhǔn)。隨著組織繼續(xù)擴(kuò)展AI運(yùn)營,這些專用解決方案將在快速發(fā)展的技術(shù)環(huán)境中變得更加重要。) e0 v" j! T+ \; g+ b

$ |$ G. ?! P: a% O5 z$ J參考文獻(xiàn)" j! T9 e, I& ^0 K3 T3 t
[1] Fedorov and I. Znamenskiy, "Designing in-house server solution for hosting modern GPUs," Nebius AI, Tech. Rep. 5436, Oct. 2024.( `8 |( A- i6 o( Z3 T/ {

5 T5 E3 Y9 M; U% L2 w+ b) o: A* |5 TEND8 n  i: O8 \3 \3 w" D6 w& |( ^) ]. V' e# d

7 X" o1 E7 b( |* z. T( Q0 e0 C; x+ Q  v4 t
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
0 J" `! @2 K; L1 j7 Y點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)2 d$ R; I7 B. |5 l: B2 e6 R# m# T

- K! O! C+ P/ n' r% ~歡迎轉(zhuǎn)載
/ \8 [4 t0 n5 B# B0 W0 N( Q* ^! }/ x- Z
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
9 |3 e) @% N3 k: H6 g
# J. f5 `0 |0 F' E" U! x% o
2 q% o" U6 T. O8 O0 A1 p
1 _3 G5 q; w1 t

* g# K7 c  B. U4 q" [
, N' H0 o5 A! k4 ?: C; C關(guān)注我們5 }/ {% n& I. w2 {3 f
  |( W- Z+ b4 L( \* d2 D/ a
/ a0 k% r  _9 l2 J7 A
  w7 X0 e/ Q4 Z" l9 }7 Y: J
  b5 k. R% E+ o8 @& h9 E
& t0 `8 x  C) Q1 c' [4 P& G4 ?

" q, P4 g/ Q* @, q9 P/ Q& p; T
. m0 z# R% ^* o& I+ F! H; p# g/ x
                     
1 s9 X4 U/ ^0 Q0 d( E1 x: Z! w4 q3 d9 D

; x8 _+ x, O' \
; K8 q9 Y6 V. v+ u( I' {" m( d關(guān)于我們:
5 m3 E, V) b# o( |9 U5 C4 M' i5 |深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。' H' H) ]5 [: W6 s- W2 p% I' N1 \  ^

# y/ A1 P  i) g7 |1 T7 Xhttp://www.latitudeda.com/
8 h  f6 u# v" n; `% u" w  A(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)

發(fā)表回復(fù)

本版積分規(guī)則


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表