|
引言
; H* ~2 L# N' S* k+ I在人工智能領(lǐng)域快速發(fā)展的今天,對(duì)高效且強(qiáng)大的計(jì)算解決方案的需求前所未有地高漲。本文FuriosaAI開(kāi)發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對(duì)大語(yǔ)言模型(LLMs)和生成式AI時(shí)代的可持續(xù)AI計(jì)算挑戰(zhàn)。3 m U6 O5 q$ k, K9 P
yawrfnvugic64042710159.png (398.06 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
yawrfnvugic64042710159.png
2024-10-25 01:49 上傳
: S) g v: G6 Q; \; f) ]
圖1:顯示FuriosaAI成立、RNGD開(kāi)發(fā)里程碑和首次LLM演示的時(shí)間線。
' D) w) M4 L" k& K6 n) n L9 Y' S d2 }5 @0 }
RNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計(jì)算可持續(xù),讓地球上的每個(gè)人都能接觸到強(qiáng)大的AI"。為實(shí)現(xiàn)這一目標(biāo),他們創(chuàng)造了一款在保持能源效率的同時(shí)還能提供出色性能的芯片。
" \. s. p4 [& E* B3 [4 P9 S* b1 K3 G$ B/ {7 S$ z
讓我們深入了解RNGD處理器的主要特性:' n# C2 G8 H) s1 t) q8 F5 `
fa3mtsaanqd64042710259.png (345.61 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
fa3mtsaanqd64042710259.png
2024-10-25 01:49 上傳
& _, i0 i9 g2 v圖2:RNGD處理器的詳細(xì)規(guī)格,包括FLOPS、內(nèi)存容量和功耗。
8 \9 p4 ~4 ^& A# [
+ Y' @4 G% V) ]7 {5 R! yRNGD擁有512 TFLOPS的計(jì)算能力,這是通過(guò)8個(gè)處理元件實(shí)現(xiàn)的,每個(gè)元件能夠達(dá)到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個(gè)HBM3模塊,內(nèi)存帶寬達(dá)到1.5 TB/s。3 y& \3 O1 O: c9 `* ?. [
- S0 S5 ?. G X9 q+ }& T; ^RNGD的突出特點(diǎn)是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計(jì)算中日益增長(zhǎng)的能源消耗問(wèn)題。
; T! g! }& w- S2 G2 h1 ^
l1zgyzhyiam64042710300.png (198.15 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
l1zgyzhyiam64042710300.png
2024-10-25 01:49 上傳
9 g# t, ?5 r! R9 V! O圖3:RNGD芯片架構(gòu)的詳細(xì)視圖,包括SoC和HBM3組件。
9 K& Z' |+ H7 _5 p6 v
3 W5 Z% k! V, {! dRNGD采用臺(tái)積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達(dá)400億。芯片設(shè)計(jì)使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個(gè)HBM3內(nèi)存堆棧集成在一起。 }3 \5 M& ~. A& e2 F3 |8 _
# Y c6 e6 }1 Z Q" w
早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:9 J( j) x1 f, F
pvfpbbxxet464042710400.png (121.42 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
pvfpbbxxet464042710400.png
2024-10-25 01:49 上傳
' [( f8 v3 t# _. O& r. y% G圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。
8 B) e1 ^ g7 T( p1 T8 P. \9 U
0 R7 r5 `! W K6 ^4 H根據(jù)這些初步基準(zhǔn)測(cè)試,在運(yùn)行GPT-J 6B MLPerf基準(zhǔn)測(cè)試場(chǎng)景時(shí),RNGD的每瓦性能比NVIDIA L40S高出60%。
! v1 W& g5 r3 ?" _3 X0 ^( |) e
, N' ]% c* b+ T; k- ]1 kRNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學(xué)習(xí)模型中的核心計(jì)算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語(yǔ),而RNGD提高了硬件-軟件接口的層次,將整個(gè)張量收縮作為原語(yǔ)來(lái)加速。* C0 L, h& [: ?
ljkximxkhz364042710500.png (150.14 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
ljkximxkhz364042710500.png
2024-10-25 01:49 上傳
" E; U o9 w; q2 V$ U圖5:圖解說(shuō)明張量收縮是深度學(xué)習(xí)中的核心計(jì)算。
: A3 H) G+ L. d0 ~9 K0 a) [' W0 _8 }* J8 B9 e
這種方法實(shí)現(xiàn)了更高的性能和能源效率,同時(shí)提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級(jí)einsum記法作為原語(yǔ),將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。& W8 ~9 O; U9 p R$ J t
uz1ir0nypzi64042710600.png (136.3 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
uz1ir0nypzi64042710600.png
2024-10-25 01:49 上傳
0 `0 a& Z6 {4 V: Z- u$ k
圖6:說(shuō)明RNGD如何將整個(gè)張量收縮作為單個(gè)原語(yǔ)操作處理。
- @. |/ T, c) J" q
5 k# l! e" b6 N) E8 \1 nRNGD的架構(gòu)能夠高效地進(jìn)行計(jì)算的空間和時(shí)間編排,提高了利用率和效率。這對(duì)推理任務(wù)尤為重要,因?yàn)橥评砣蝿?wù)的批處理大小可能會(huì)有很大變化。
$ [5 ^: D% j' Y" G$ m4 j% Y6 v
vngatfm4nwh64042710700.png (514.7 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
vngatfm4nwh64042710700.png
2024-10-25 01:49 上傳
. R6 z% D C, J9 r. r! c; I圖7:RNGD處理器的詳細(xì)架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。- o! C9 g7 r" d' l# {
$ ]2 b" ~1 |( e
為了支持大型模型的多卡配置,RNGD實(shí)現(xiàn)了基于PCIe的芯片間通信。這允許通過(guò)直接點(diǎn)對(duì)點(diǎn)通信減少卡之間的延遲。4 X9 e% P4 e; l X; u
h5m5ogor5ja64042710801.png (146.09 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
h5m5ogor5ja64042710801.png
2024-10-25 01:49 上傳
( E4 ~0 L7 M7 z1 O/ o" R7 d0 [5 ^圖8:展示多個(gè)RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。& }9 y0 n- d' {' `4 h
7 n5 u9 Q9 U2 z, n2 o+ P+ ARNGD還支持SR-IOV(Single Root I/O Virtualization)多實(shí)例支持和虛擬化,允許虛擬機(jī)使用多達(dá)8個(gè)虛擬功能。
/ t+ Q' }" B7 Y, F) l- i
1 `: m5 {7 X1 r! ?6 e在軟件方面,F(xiàn)uriosaAI開(kāi)發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:% ~; N& K9 ]' ?
ljelpdng5ul64042710901.png (213.88 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
ljelpdng5ul64042710901.png
2024-10-25 01:49 上傳
7 z2 q. c7 w1 S# V
圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。: k( e- G+ p4 H0 W+ u3 r
& w# ~! @" w8 ]4 X( o6 |4 |- P* {% J這個(gè)軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器,以及最先進(jìn)的服務(wù)優(yōu)化。
2 D' Z- V/ E0 ?; b
, I3 U# z( r8 BFuriosa編譯器在實(shí)現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:4 k9 n. O: M: `3 t/ m9 X4 I
q1qmkcgr0i164042711001.png (172.8 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
q1qmkcgr0i164042711001.png
2024-10-25 01:49 上傳
% J, ~2 I5 C9 }" k. v9 ]圖10:顯示RNGD上優(yōu)化張量操作的編譯過(guò)程流程圖。' ~7 U: e9 i; ? R( W# H! u
( y& q1 d# v4 p0 l% Z, O編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來(lái)探索策略空間。此外,還執(zhí)行圖級(jí)優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。5 w$ _4 b2 I! b* \5 k- ]3 I
4 |! E- K% T4 _3 {3 D+ F
為了最大化服務(wù)性能,F(xiàn)uriosaAI開(kāi)發(fā)了實(shí)現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架:
" M4 x2 s/ O& [! `: P; @
lsk0024yrx064042711101.png (177.16 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
lsk0024yrx064042711101.png
2024-10-25 01:49 上傳
' L/ L7 w, ]: R* D
圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。
; J+ l' x$ O# J" { x z- ?- ~; N3 T, [, r* O! o$ Z
該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運(yùn)行時(shí)進(jìn)行高吞吐量服務(wù),支持連續(xù)批處理。! j9 m0 E# Z& y: x- S3 T& A- g
% n0 v+ ~6 `9 w, P& `為了高效量化,F(xiàn)uriosaAI提供了一個(gè)端到端的自動(dòng)化量化工具:6 N4 G) d9 a- L3 u0 f* _
vria2myrbcx64042711201.png (161.11 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
vria2myrbcx64042711201.png
2024-10-25 01:49 上傳
- v) v* Y+ s* c3 n& ]3 l
圖12:Furiosa量化器概覽,這是自動(dòng)化的基于圖的量化工具。
8 S/ X. T% s8 W' m& o U" u4 q$ `9 |& `: A7 i1 \
這個(gè)工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項(xiàng)。
( N) Q. h+ ?3 H) m0 P& ]
7 X7 c% z" R# B5 i$ u2 V" WRNGD的開(kāi)發(fā)采用了先進(jìn)的方法和工具:
! f* i3 K0 h. f N2 Z- o5 D, U
woxvpvfr1jm64042711302.png (148.07 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
woxvpvfr1jm64042711302.png
2024-10-25 01:49 上傳
# U- r- z: ^3 z, ^0 z, y
圖13:展示RNGD創(chuàng)建過(guò)程中使用的先進(jìn)開(kāi)發(fā)方法的信息圖。 Z/ l- `0 l4 D3 z
9 r( ?! r3 L2 p- q$ c
這些包括使用Rust和Chisel等高效語(yǔ)言,基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施,以及復(fù)雜的測(cè)試用例生成和驗(yàn)證流程。9 }; h. H1 a. Z4 b3 o
" h- N6 d' [: c" uRNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過(guò)專注于可持續(xù)計(jì)算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強(qiáng)大的解決方案,適用于大語(yǔ)言模型和生成式AI時(shí)代。隨著對(duì)高效AI計(jì)算需求的持續(xù)增長(zhǎng),像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場(chǎng)景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。( ?0 C4 W' Q; u' \
% ~( ~+ J( f: V; d [; F
+ J6 P4 f* ^$ w Q1 F4 u! ]3 x參考文獻(xiàn)1 w, _+ y: w) f! X
[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.
& D/ \ c) C4 j8 `/ J7 U' I6 u- N$ ^* b( ~ b) _, F( b
- END -8 z) Y, X; h$ L1 J% z) V' V
5 d8 H8 s% o0 K. b軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
0 q; z2 D3 \1 `5 e) {! b點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
5 b' ~7 j6 U( x- f
9 f/ W* L1 \5 p, y歡迎轉(zhuǎn)載
3 |1 _0 X4 G U+ `" g4 A( s0 `
- ^) z3 \0 Y9 I9 O轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
# X8 s6 t* O* P# K+ O
4 K' V+ E. q, k- a$ `( i: D8 o+ q
" w( `7 o* r+ q1 V6 g* J
gv3vhov5rai64042711402.gif (16.04 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
gv3vhov5rai64042711402.gif
2024-10-25 01:49 上傳
& g; ^; a/ U2 A* F; ] [ f
5 z* e( @2 c3 ~, K. G$ g! |
關(guān)注我們! _0 [) O% C& b( ~
# ^* L8 _- J% t# k ]$ h" m. ^8 ]8 T6 @" q4 i5 L' Z, r
yfnag5ly02464042711502.png (31.33 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
yfnag5ly02464042711502.png
2024-10-25 01:49 上傳
4 f( d6 p( e3 P2 }
| 8 A ^, z$ q0 J4 N) P
y1ml43djqh364042711602.png (82.79 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
y1ml43djqh364042711602.png
2024-10-25 01:49 上傳
2 E# N3 ?" ?. J) n* H$ ], p5 p# M |
. r! d/ J0 V. f8 b0 E
nnjmle55o0364042711702.png (21.52 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
nnjmle55o0364042711702.png
2024-10-25 01:49 上傳
$ J2 b% e" I2 s& g9 v7 f. ^5 r0 N |
9 I, p! k$ o+ p6 ]$ R# F/ o! Y; l8 L0 e9 a& @$ X
; C& t( a1 _$ S6 Y; P) [/ W
( n( u0 O! \+ \- g: {5 |關(guān)于我們:' M8 a8 T2 a! W. i$ ?) Z* H: }' r- [
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。7 \ _1 ^0 r v. w- V
# u( F' o0 u* N1 F' }- R
http://www.latitudeda.com/' G+ i1 ]6 w1 t% m: f
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|