電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 53|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 大語(yǔ)言模型時(shí)代的可持續(xù)AI計(jì)算解決方案

[復(fù)制鏈接]

511

主題

511

帖子

3950

積分

四級(jí)會(huì)員

Rank: 4

積分
3950
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-24 08:00:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |正序?yàn)g覽 |閱讀模式
引言
& o) [- W  s, D% M4 {: m( V& `在人工智能領(lǐng)域快速發(fā)展的今天,對(duì)高效且強(qiáng)大的計(jì)算解決方案的需求前所未有地高漲。本文FuriosaAI開(kāi)發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對(duì)大語(yǔ)言模型(LLMs)和生成式AI時(shí)代的可持續(xù)AI計(jì)算挑戰(zhàn)。
! V& ]! M. {5 S 3 d! y) M% e9 c$ q% s3 s$ t
圖1:顯示FuriosaAI成立、RNGD開(kāi)發(fā)里程碑和首次LLM演示的時(shí)間線。
4 N8 k$ Q2 y! `- E8 ]4 y5 b. U2 h$ Q( W
RNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計(jì)算可持續(xù),讓地球上的每個(gè)人都能接觸到強(qiáng)大的AI"。為實(shí)現(xiàn)這一目標(biāo),他們創(chuàng)造了一款在保持能源效率的同時(shí)還能提供出色性能的芯片。
1 J. I  @+ p  L1 P+ P% Z
; z+ K4 e. E3 u6 B讓我們深入了解RNGD處理器的主要特性:
: u: z8 ]' N  Q- B  C. r % u3 j6 [0 ^: H  T2 m, I- R& }
圖2:RNGD處理器的詳細(xì)規(guī)格,包括FLOPS、內(nèi)存容量和功耗。
- S* z( G$ X; X* q
: `3 R0 K- N7 M2 r6 XRNGD擁有512 TFLOPS的計(jì)算能力,這是通過(guò)8個(gè)處理元件實(shí)現(xiàn)的,每個(gè)元件能夠達(dá)到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個(gè)HBM3模塊,內(nèi)存帶寬達(dá)到1.5 TB/s。: p6 a, ]; J" r) W4 c
/ x) ]" A6 b7 o$ Q/ P
RNGD的突出特點(diǎn)是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計(jì)算中日益增長(zhǎng)的能源消耗問(wèn)題。
3 A3 k* a' H/ a/ O) ?6 z 3 W2 m8 M. ]+ z, L6 x9 C: f
圖3:RNGD芯片架構(gòu)的詳細(xì)視圖,包括SoC和HBM3組件。
& U) v* P) E, O- N% U3 g. s
  A  f/ A+ `" i( G/ s8 GRNGD采用臺(tái)積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達(dá)400億。芯片設(shè)計(jì)使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個(gè)HBM3內(nèi)存堆棧集成在一起。! w3 i: G( g7 Z, h6 Z% O$ q

) r# p1 @: c5 t9 S0 l- j) g7 G9 S早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:
( M- k  E: F! h' Y : a; O) ~7 f0 r/ d. `
圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。
$ M2 G2 \& P4 S0 [0 Q; [1 Y4 q6 Z
8 X: N  S& J+ `根據(jù)這些初步基準(zhǔn)測(cè)試,在運(yùn)行GPT-J 6B MLPerf基準(zhǔn)測(cè)試場(chǎng)景時(shí),RNGD的每瓦性能比NVIDIA L40S高出60%。
& d# s% Z- i. }. a
9 u; y5 ?' |, O6 kRNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學(xué)習(xí)模型中的核心計(jì)算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語(yǔ),而RNGD提高了硬件-軟件接口的層次,將整個(gè)張量收縮作為原語(yǔ)來(lái)加速。
% T4 j- a% Q; T" M' D" d& P
4 n. C; x. S- X6 b) _# w圖5:圖解說(shuō)明張量收縮是深度學(xué)習(xí)中的核心計(jì)算。
7 m- J" K! V, r1 D. s+ }6 z  O
" P. G" |0 J+ {9 L9 l* Y這種方法實(shí)現(xiàn)了更高的性能和能源效率,同時(shí)提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級(jí)einsum記法作為原語(yǔ),將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。
% P2 E5 W$ v7 I) g   V9 N$ t, N0 a& y/ R; w* O$ b
圖6:說(shuō)明RNGD如何將整個(gè)張量收縮作為單個(gè)原語(yǔ)操作處理。
/ n! i" ]) c! y  g
$ s7 l% z/ ^; w# o9 z8 L5 tRNGD的架構(gòu)能夠高效地進(jìn)行計(jì)算的空間和時(shí)間編排,提高了利用率和效率。這對(duì)推理任務(wù)尤為重要,因?yàn)橥评砣蝿?wù)的批處理大小可能會(huì)有很大變化。
" ~, b1 d) Y& Z3 L$ }
: Q8 S- _" A1 z) d  d8 O7 d圖7:RNGD處理器的詳細(xì)架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。
" ~+ H/ g' U, l- m; ~
* R9 J9 W2 {: |' l  I9 l# N4 W. R為了支持大型模型的多卡配置,RNGD實(shí)現(xiàn)了基于PCIe的芯片間通信。這允許通過(guò)直接點(diǎn)對(duì)點(diǎn)通信減少卡之間的延遲。
9 c' @6 k$ t9 W+ h% G( ]
/ v# W; }  x, X3 [5 O圖8:展示多個(gè)RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。( b. A, N5 K7 S6 U

: P' `0 p9 a- A+ jRNGD還支持SR-IOV(Single Root I/O Virtualization)多實(shí)例支持和虛擬化,允許虛擬機(jī)使用多達(dá)8個(gè)虛擬功能。& B' }0 r; ~! K+ s

5 Q8 S2 B1 m8 a7 s$ C( T3 o% g在軟件方面,F(xiàn)uriosaAI開(kāi)發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:/ p1 [* k) W7 p6 Z

4 i: F$ _" y( h- ^2 p8 B! c圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。- J4 m, G5 }% V8 m+ W
- g; F! Y. F) [/ C1 \& a* g+ L
這個(gè)軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器,以及最先進(jìn)的服務(wù)優(yōu)化。5 u  d; |+ P' Y$ `- S
! X9 E* a/ t" _
Furiosa編譯器在實(shí)現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:
% z- h3 k& t6 O/ R- c2 @ * u4 s. T+ D  ^5 F: Q
圖10:顯示RNGD上優(yōu)化張量操作的編譯過(guò)程流程圖。
( Y* A  ~1 I1 _& T1 _% G, K. a6 L  T/ ?& ^9 u/ b
編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來(lái)探索策略空間。此外,還執(zhí)行圖級(jí)優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。4 D- i+ e% {# u2 N. {6 ]7 O* F

0 G  ?0 [: @2 q0 x為了最大化服務(wù)性能,F(xiàn)uriosaAI開(kāi)發(fā)了實(shí)現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架:
$ k; r) r' j* C, f) e
4 N, O0 _+ }+ z% u4 h$ W% K圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。
& v) {) }3 O4 f8 B# x' L: ^2 C% F0 x" c+ r& A
該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運(yùn)行時(shí)進(jìn)行高吞吐量服務(wù),支持連續(xù)批處理。) ]2 }0 k+ _. I4 ~7 }5 t4 x
! s/ f# C2 E! E7 u, n
為了高效量化,F(xiàn)uriosaAI提供了一個(gè)端到端的自動(dòng)化量化工具:
$ I: |. x- Y/ M2 [7 C" P3 V
- d5 |0 H' G: j' r$ w( N7 p圖12:Furiosa量化器概覽,這是自動(dòng)化的基于圖的量化工具。
# Z" f4 r' S7 E4 ?- ~. [
7 N- M- x! K1 i" I0 u這個(gè)工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項(xiàng)。
5 W) `$ U; a& }8 J
( P+ L4 X9 b6 \3 M) kRNGD的開(kāi)發(fā)采用了先進(jìn)的方法和工具:  N& D( K" k, d( J5 v- M
0 o9 F# W) ~" }  |, B4 I3 \/ G
圖13:展示RNGD創(chuàng)建過(guò)程中使用的先進(jìn)開(kāi)發(fā)方法的信息圖。
$ G$ f& x! G, c7 b0 i6 L$ Z8 z: C7 j( P" X+ V0 L
這些包括使用Rust和Chisel等高效語(yǔ)言,基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施,以及復(fù)雜的測(cè)試用例生成和驗(yàn)證流程。" Q4 Y' E. R5 a& Y4 D$ |

$ Z' M. T+ ]' N" `, \RNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過(guò)專(zhuān)注于可持續(xù)計(jì)算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強(qiáng)大的解決方案,適用于大語(yǔ)言模型和生成式AI時(shí)代。隨著對(duì)高效AI計(jì)算需求的持續(xù)增長(zhǎng),像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場(chǎng)景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。+ D$ B7 I8 v1 p  u- B" _
; D# P2 C5 }+ h2 U9 _: |( s

/ p  ]/ f# r+ c4 @參考文獻(xiàn)7 v6 {5 |9 G( m3 v9 k
[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.# J# s, ^& E+ s7 t& O. a

, m4 W4 G, {  n# i- END -
% `+ w* x+ {4 b& ?
4 r9 T+ w; J5 u5 o3 y8 r% X( N2 k軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。; m3 h+ i+ r: k; h$ z, D
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)( [$ U6 P0 ], D7 T

  [* E" r2 x* D" m歡迎轉(zhuǎn)載
2 u2 Z, p/ s3 G( G
7 S% n: m1 m9 ]. B# r3 v: X轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!& a  W% S5 P6 O4 C

& Z( ?, Y  u8 K; T# W0 C5 R- H9 _" J6 \$ S, M# D7 A

9 W5 m7 e" {' n3 ?0 U2 c
/ Q, X! R. K; z" h
0 p5 M/ k4 p& A" N7 h關(guān)注我們
$ c# U: |! W. j0 y2 D9 P1 ]9 J( t, a
4 c& }6 u; W' _0 D: s  D
2 F! e+ x5 N0 d3 a2 t: ?
$ P' P" k$ Q- t8 V. v

4 x' v, A  u; e8 B. z9 @6 \

/ R( ~# p% |" P0 k+ y" r* e; n3 s: D * z* |! f; T: j* R6 O1 h  G
                      . k. h9 s& ?  Z0 X$ e

4 p+ k; V& A9 i3 m3 K+ u" U

- A; q, n" w# |9 O. d" y' P; @: B) Z% W
關(guān)于我們:6 }- M$ d7 c$ z! ^
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專(zhuān)注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
9 w" u0 i+ g. D+ H& t4 v+ T0 ~$ n6 g
http://www.latitudeda.com/
7 ?- @# Y2 J3 D* b& b(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)

發(fā)表回復(fù)

本版積分規(guī)則

關(guān)閉

站長(zhǎng)推薦上一條 /1 下一條


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表