|
引言" i& @+ F5 L4 I6 v8 N6 w+ r
在人工智能領(lǐng)域快速發(fā)展的今天,對(duì)高效且強(qiáng)大的計(jì)算解決方案的需求前所未有地高漲。本文FuriosaAI開(kāi)發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對(duì)大語(yǔ)言模型(LLMs)和生成式AI時(shí)代的可持續(xù)AI計(jì)算挑戰(zhàn)。
" W K" r" G1 L8 [, R
yawrfnvugic64042710159.png (398.06 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
yawrfnvugic64042710159.png
2024-10-25 01:49 上傳
, @) H0 P9 B. ]/ e) ~! j圖1:顯示FuriosaAI成立、RNGD開(kāi)發(fā)里程碑和首次LLM演示的時(shí)間線。$ V) l7 b3 I# I7 D, w
+ |# q& r. J" l
RNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計(jì)算可持續(xù),讓地球上的每個(gè)人都能接觸到強(qiáng)大的AI"。為實(shí)現(xiàn)這一目標(biāo),他們創(chuàng)造了一款在保持能源效率的同時(shí)還能提供出色性能的芯片。
/ q& R7 u! f$ _) x' S/ o* ~2 s+ V5 O# L' O' Q- y
讓我們深入了解RNGD處理器的主要特性:
0 I7 Y& H; z- i Z, R6 p! I: Y3 H c
fa3mtsaanqd64042710259.png (345.61 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
fa3mtsaanqd64042710259.png
2024-10-25 01:49 上傳
) l& k% ?# a! ]& `: W
圖2:RNGD處理器的詳細(xì)規(guī)格,包括FLOPS、內(nèi)存容量和功耗。
* ]2 e8 o* @. B3 r. z& F- o$ h8 r: M4 K+ J! C5 T
RNGD擁有512 TFLOPS的計(jì)算能力,這是通過(guò)8個(gè)處理元件實(shí)現(xiàn)的,每個(gè)元件能夠達(dá)到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個(gè)HBM3模塊,內(nèi)存帶寬達(dá)到1.5 TB/s。/ y7 q; c& V1 Z |$ o' e
1 g( z& @ D5 d$ w, s1 a8 B1 _RNGD的突出特點(diǎn)是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計(jì)算中日益增長(zhǎng)的能源消耗問(wèn)題。
5 y8 X' i- x, c8 F- E( T4 V
l1zgyzhyiam64042710300.png (198.15 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
l1zgyzhyiam64042710300.png
2024-10-25 01:49 上傳
% T/ D0 @' W7 T; v A+ E: h
圖3:RNGD芯片架構(gòu)的詳細(xì)視圖,包括SoC和HBM3組件。
: Y8 h2 l1 v" u/ V. Y. V D6 D4 n- B: [- ]# K" Z0 m0 ^
RNGD采用臺(tái)積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達(dá)400億。芯片設(shè)計(jì)使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個(gè)HBM3內(nèi)存堆棧集成在一起。$ w& d. L6 V9 i4 R c0 U3 A
4 [( A: [+ z* Y+ i早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:
. q7 z( y! a* U5 h/ r
pvfpbbxxet464042710400.png (121.42 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
pvfpbbxxet464042710400.png
2024-10-25 01:49 上傳
; f$ }- z4 [9 [+ m9 r+ ?, w圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。
4 i3 c% d* m' [7 G" X$ N6 @$ U; G) {$ N+ x' i' z
根據(jù)這些初步基準(zhǔn)測(cè)試,在運(yùn)行GPT-J 6B MLPerf基準(zhǔn)測(cè)試場(chǎng)景時(shí),RNGD的每瓦性能比NVIDIA L40S高出60%。
* Z& o% t$ a/ d; ~9 u/ x5 w7 J1 F; Z
RNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學(xué)習(xí)模型中的核心計(jì)算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語(yǔ),而RNGD提高了硬件-軟件接口的層次,將整個(gè)張量收縮作為原語(yǔ)來(lái)加速。
5 [& M" c) X2 D! f% ? ?
ljkximxkhz364042710500.png (150.14 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
ljkximxkhz364042710500.png
2024-10-25 01:49 上傳
' a9 }0 S( K9 [3 J3 K; U% K
圖5:圖解說(shuō)明張量收縮是深度學(xué)習(xí)中的核心計(jì)算。
! D* Q. J# h" w4 h P
& H; h Y6 S4 M7 Y( c& H這種方法實(shí)現(xiàn)了更高的性能和能源效率,同時(shí)提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級(jí)einsum記法作為原語(yǔ),將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。
( g# U- C, D8 R9 m! e! Y/ N
uz1ir0nypzi64042710600.png (136.3 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
uz1ir0nypzi64042710600.png
2024-10-25 01:49 上傳
0 r3 x7 x, P0 H3 y) T圖6:說(shuō)明RNGD如何將整個(gè)張量收縮作為單個(gè)原語(yǔ)操作處理。
, t- T% Y9 ^3 ]0 d. T$ I9 i# x+ a/ I& @" d B" K, x
RNGD的架構(gòu)能夠高效地進(jìn)行計(jì)算的空間和時(shí)間編排,提高了利用率和效率。這對(duì)推理任務(wù)尤為重要,因?yàn)橥评砣蝿?wù)的批處理大小可能會(huì)有很大變化。: D) h, Y( i5 _+ u* F1 z
vngatfm4nwh64042710700.png (514.7 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
vngatfm4nwh64042710700.png
2024-10-25 01:49 上傳
6 M8 F0 G" i- j- e& g4 G: l
圖7:RNGD處理器的詳細(xì)架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。
% t7 s% ~1 m- I/ J% F! n- z6 s. k8 \! w3 X! t7 R
為了支持大型模型的多卡配置,RNGD實(shí)現(xiàn)了基于PCIe的芯片間通信。這允許通過(guò)直接點(diǎn)對(duì)點(diǎn)通信減少卡之間的延遲。! w/ `5 R; g$ R) c
h5m5ogor5ja64042710801.png (146.09 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
h5m5ogor5ja64042710801.png
2024-10-25 01:49 上傳
" b8 @. T$ x0 {" N
圖8:展示多個(gè)RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。
3 @' l; H9 b# \& L) F9 x0 Y2 T2 y" e# R1 |2 e5 x
RNGD還支持SR-IOV(Single Root I/O Virtualization)多實(shí)例支持和虛擬化,允許虛擬機(jī)使用多達(dá)8個(gè)虛擬功能。
9 f7 f. ]; n* A9 }+ O$ r v) s4 _! p: |: `; [
在軟件方面,F(xiàn)uriosaAI開(kāi)發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:
5 S# N7 J2 a3 x6 _, M
ljelpdng5ul64042710901.png (213.88 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
ljelpdng5ul64042710901.png
2024-10-25 01:49 上傳
9 z5 z3 G2 ?7 |# \
圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。
- ^1 R" m t1 m4 j( T$ a: X; S9 Q3 d9 g) N
這個(gè)軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器,以及最先進(jìn)的服務(wù)優(yōu)化。
0 E) n& `6 S2 _* g ]3 h( ^* S; |! G+ d3 S+ J& p- P
Furiosa編譯器在實(shí)現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:7 P! z8 ~: y P; e! t- D5 B
q1qmkcgr0i164042711001.png (172.8 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
q1qmkcgr0i164042711001.png
2024-10-25 01:49 上傳
4 Z) W$ g4 W3 m圖10:顯示RNGD上優(yōu)化張量操作的編譯過(guò)程流程圖。
9 x: g$ J( p, u7 e8 l# g2 ^9 j) N9 V" n* n! o
編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來(lái)探索策略空間。此外,還執(zhí)行圖級(jí)優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。# U) [8 c& N F: V3 F
, b) i+ a9 U! b為了最大化服務(wù)性能,F(xiàn)uriosaAI開(kāi)發(fā)了實(shí)現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架:4 p* C7 y3 e) l; |* v
lsk0024yrx064042711101.png (177.16 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
lsk0024yrx064042711101.png
2024-10-25 01:49 上傳
9 u5 j4 n* j( P. ]
圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。, Z0 J) [, U( r8 z6 C
& ?4 K3 @/ g) f) @該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運(yùn)行時(shí)進(jìn)行高吞吐量服務(wù),支持連續(xù)批處理。
( R0 v4 Z# Y ?: N
& D# Z ]4 k+ z, v1 f* W為了高效量化,F(xiàn)uriosaAI提供了一個(gè)端到端的自動(dòng)化量化工具:
! E2 I0 o2 _ X* x p- E% P9 N+ k
vria2myrbcx64042711201.png (161.11 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
vria2myrbcx64042711201.png
2024-10-25 01:49 上傳
5 U, A) B% y. ]" B4 L- h
圖12:Furiosa量化器概覽,這是自動(dòng)化的基于圖的量化工具。
! b* Z1 I) {8 `5 |9 r% }9 `0 q8 |
這個(gè)工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項(xiàng)。# X9 t7 a# i) O# g" Y# y
& B6 J; v2 _* _- M1 F8 t5 XRNGD的開(kāi)發(fā)采用了先進(jìn)的方法和工具:
' h' Y/ R; D' c" c4 @" `: |
woxvpvfr1jm64042711302.png (148.07 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
woxvpvfr1jm64042711302.png
2024-10-25 01:49 上傳
$ g4 A; F9 Z! W7 A2 E$ I
圖13:展示RNGD創(chuàng)建過(guò)程中使用的先進(jìn)開(kāi)發(fā)方法的信息圖。
" g3 l2 ^- c! w g0 `8 X; c/ Y1 s% O( O6 A. \# C
這些包括使用Rust和Chisel等高效語(yǔ)言,基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施,以及復(fù)雜的測(cè)試用例生成和驗(yàn)證流程。% G" R3 c! Z/ b6 b
) O5 W/ K7 U6 H9 z: Y0 q( |RNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過(guò)專(zhuān)注于可持續(xù)計(jì)算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強(qiáng)大的解決方案,適用于大語(yǔ)言模型和生成式AI時(shí)代。隨著對(duì)高效AI計(jì)算需求的持續(xù)增長(zhǎng),像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場(chǎng)景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。! V6 `! ^1 ~& B- @6 n
" t6 X2 |) q( x# T. ~
$ ^. j! F% z6 K1 K ]; Z. r0 W# i' G) \參考文獻(xiàn)
8 [: A* n& m8 ]3 w! s7 e[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.. y. P8 `: H! s- k4 X# |# ?. I
3 o9 G5 Z' b$ } W- END -+ G# U9 {1 N) Z# ~* q; u
: u, F% M3 n/ \$ K& V2 v/ L
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
7 J7 `% y% Y6 R% o點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
: A, |' B+ _0 \6 F
+ v4 ]1 c; w: L" `# n2 {. \! } r歡迎轉(zhuǎn)載
$ }+ ?# n* _9 |( W( {5 v* o
/ {: F0 Z4 n0 G Z* S轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
5 M* R7 J# H4 F1 p. w& H8 ?) |' g4 G, \' E
: o: |+ S( u b9 L V5 O0 I' ]" |: t+ W. t
gv3vhov5rai64042711402.gif (16.04 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
gv3vhov5rai64042711402.gif
2024-10-25 01:49 上傳
6 o! U3 i7 J* T5 ]7 M$ |# V
9 W7 j) q+ U2 b0 b) I2 t6 A/ j
關(guān)注我們0 }- {- }, O% t2 v
- t/ |# z3 w& p) z( V/ U
& R- n+ F) l, g/ s- m
yfnag5ly02464042711502.png (31.33 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
yfnag5ly02464042711502.png
2024-10-25 01:49 上傳
4 K* c2 g% @6 l& i7 Y7 n | 1 O% D- R9 }( d/ v& d9 J4 [( d
y1ml43djqh364042711602.png (82.79 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
y1ml43djqh364042711602.png
2024-10-25 01:49 上傳
- z% i1 Z) I9 m5 [2 S
|
' g2 ]/ G4 x- b# |* S' N. Y
nnjmle55o0364042711702.png (21.52 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
nnjmle55o0364042711702.png
2024-10-25 01:49 上傳
' _6 F+ p# p, `( G8 M0 c | , a; ~& f) N2 T( j! F2 h) O1 ~. _
9 N7 b* r+ _% o( q1 l2 S6 y
! {& u: H R1 L0 P2 }" y: h6 n9 {; o) p# N
關(guān)于我們:+ W+ a# `; _7 g0 @
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專(zhuān)注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
8 P8 y" P$ _) _0 f6 O2 }0 ^
) D) o; X+ k1 M0 u$ ?. A2 O2 M* Rhttp://www.latitudeda.com/5 o/ {) p1 x+ C9 H6 T! X4 X
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|