電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 50|回復: 0
收起左側(cè)

Hot Chips 2024 | 大語言模型時代的可持續(xù)AI計算解決方案

[復制鏈接]

511

主題

511

帖子

3950

積分

四級會員

Rank: 4

積分
3950
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-24 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
- A1 K5 W* Y$ i- O/ f5 `6 V在人工智能領(lǐng)域快速發(fā)展的今天,對高效且強大的計算解決方案的需求前所未有地高漲。本文FuriosaAI開發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對大語言模型(LLMs)和生成式AI時代的可持續(xù)AI計算挑戰(zhàn)。
; o. B( p  T. H1 U . o9 n) C8 A8 U, V' @
圖1:顯示FuriosaAI成立、RNGD開發(fā)里程碑和首次LLM演示的時間線。" {% z, B' G6 r4 x3 i' t4 i
' `% E" O5 F4 G2 a1 e4 O, s" ?
RNGD處理器代表了AI加速技術(shù)的重大進步。FuriosaAI的使命是"使AI計算可持續(xù),讓地球上的每個人都能接觸到強大的AI"。為實現(xiàn)這一目標,他們創(chuàng)造了一款在保持能源效率的同時還能提供出色性能的芯片。. B3 ~2 D; z5 |

2 f8 y; O8 l* o; s讓我們深入了解RNGD處理器的主要特性:# F( `7 e0 F8 \8 p

5 ?/ M# X! D( j6 p  |圖2:RNGD處理器的詳細規(guī)格,包括FLOPS、內(nèi)存容量和功耗。. {* S  h7 _! H6 _/ p
6 E( y( g& y& u; j
RNGD擁有512 TFLOPS的計算能力,這是通過8個處理元件實現(xiàn)的,每個元件能夠達到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個HBM3模塊,內(nèi)存帶寬達到1.5 TB/s。8 Y' R6 g- \' {/ [
1 t, m3 ?; X- T  ?$ M! b7 r8 m# P) U
RNGD的突出特點是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計算中日益增長的能源消耗問題。
5 X4 M" o; I. a8 R2 v3 j5 h+ P 2 r" w8 e1 H+ R- ^
圖3:RNGD芯片架構(gòu)的詳細視圖,包括SoC和HBM3組件。9 r: g; }5 A9 u% g+ G' r% `$ Y
4 `$ H6 f1 k. m$ w
RNGD采用臺積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達400億。芯片設(shè)計使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個HBM3內(nèi)存堆棧集成在一起。
9 {5 X% d; }  v0 {- ^- u
# P) @! O$ w3 X9 Y; Y8 q早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:
* w# B# `' M% R# w  } 6 x% u5 i* U, i* D
圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。
9 \8 \. x) Y/ d: ]/ [# _2 t2 J2 |6 p: H% P$ `& y+ f0 G9 T9 @
根據(jù)這些初步基準測試,在運行GPT-J 6B MLPerf基準測試場景時,RNGD的每瓦性能比NVIDIA L40S高出60%。+ f) {, i! d" n4 S/ G) b

- M3 V8 [/ W2 e( r9 P/ t  i- Q" n4 MRNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學習模型中的核心計算。大多數(shù)商用深度學習加速器使用固定大小的矩陣乘法作為原語,而RNGD提高了硬件-軟件接口的層次,將整個張量收縮作為原語來加速。
& z2 R7 f) }; R6 f! J
6 e3 w% L9 M* {- u; B8 A2 j圖5:圖解說明張量收縮是深度學習中的核心計算。% D# K/ c6 {! g& {% X( R

7 x, w5 R! c9 [( R! \6 j這種方法實現(xiàn)了更高的性能和能源效率,同時提供了支持所有深度學習模型的靈活性。RNGD引入了低級einsum記法作為原語,將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。1 f9 t& P4 f7 N0 C0 Q: j

  v3 `1 o$ l" M7 @& o圖6:說明RNGD如何將整個張量收縮作為單個原語操作處理。
8 W9 y8 z3 p3 B3 h1 W# ]( ~% B
( M! k7 _% F* pRNGD的架構(gòu)能夠高效地進行計算的空間和時間編排,提高了利用率和效率。這對推理任務(wù)尤為重要,因為推理任務(wù)的批處理大小可能會有很大變化。
4 e% x3 _; O% X9 b
8 `& S2 ?. x2 A% h+ s; ~# b圖7:RNGD處理器的詳細架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。% S8 D( {- L6 x0 f- \

. w7 O5 w$ G2 U: ?' C& h, ~9 T為了支持大型模型的多卡配置,RNGD實現(xiàn)了基于PCIe的芯片間通信。這允許通過直接點對點通信減少卡之間的延遲。) U  e7 A3 v2 M* y; k# y0 v
- D; k' o" l  d
圖8:展示多個RNGD卡與主機CPU之間基于PCIe的通信圖。
* T( s( p0 n1 B5 d! {; W, C7 D* _& V' ?' l* ^
RNGD還支持SR-IOV(Single Root I/O Virtualization)多實例支持和虛擬化,允許虛擬機使用多達8個虛擬功能。
9 N" D$ W( R. i$ K
8 E3 u) q6 d* c, s在軟件方面,F(xiàn)uriosaAI開發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:% N6 {0 a7 V9 a1 s
- m0 i4 e5 g% ^
圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。  l% u& J  J" h1 b8 d" o) t9 p
8 ]/ S' f1 Q+ B2 f$ E9 T
這個軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進的DNN編譯器,以及最先進的服務(wù)優(yōu)化。
' |7 i  n! T% S( m8 l( I% R+ v* u# p2 V9 c
Furiosa編譯器在實現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:
' y4 H0 k) a. b9 a2 m7 a7 g+ _) M
3 d1 n5 E( V/ [  K0 g, Q. N圖10:顯示RNGD上優(yōu)化張量操作的編譯過程流程圖。
: o7 f  J0 ?, `6 t4 q' O5 N1 y$ O6 G: M/ ?0 [# h
編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來探索策略空間。此外,還執(zhí)行圖級優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。
; B4 O" ^, t8 v; A2 L: e( U
* X# d  [: [* F, Z為了最大化服務(wù)性能,F(xiàn)uriosaAI開發(fā)了實現(xiàn)先進優(yōu)化的服務(wù)框架:
, C: Y/ v, D7 [; x) ^
* Q+ z6 d( E, M* V圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。
: @, ?  b# |7 z+ ~7 x; Y6 p2 o- [% e- f3 W  _5 U0 H
該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運行時進行高吞吐量服務(wù),支持連續(xù)批處理。2 g  C5 ^& T  r" }) Q# F8 f" E) g) [4 N

. _7 H; ~. {1 N6 Z# W: [6 W為了高效量化,F(xiàn)uriosaAI提供了一個端到端的自動化量化工具:
/ L" ^# A) _! k( K/ c4 y& S " a+ `' Q+ V) ]& Q, n6 c3 v( F
圖12:Furiosa量化器概覽,這是自動化的基于圖的量化工具。
1 U; G8 d; a0 H) b1 {1 s5 |/ k+ N& m) \
這個工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項。% k- @+ q6 s& C# I
% [8 ~; _2 T2 \. S- X& c5 D
RNGD的開發(fā)采用了先進的方法和工具:
0 X" r' {- i0 x $ B- E* ^) R  u$ {
圖13:展示RNGD創(chuàng)建過程中使用的先進開發(fā)方法的信息圖。
/ }! t5 o1 F5 n( P( n: M
& C6 ~' y# v7 f! ^" H/ W這些包括使用Rust和Chisel等高效語言,基于Kubernetes和Tekton CI的可擴展工具和基礎(chǔ)設(shè)施,以及復雜的測試用例生成和驗證流程。/ }& C6 |- X4 |+ p3 ?

2 |8 }; a2 Y: N0 `. `& YRNGD張量收縮處理器代表了AI加速器技術(shù)的進步。通過專注于可持續(xù)計算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強大的解決方案,適用于大語言模型和生成式AI時代。隨著對高效AI計算需求的持續(xù)增長,像RNGD這樣的技術(shù)將在使先進AI能夠應(yīng)用于更廣泛的場景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。  g2 Q- ^4 v' ?

! J( B8 [/ w- {) \
6 u0 |- ~3 ]/ n& z; s( q  Y
參考文獻
$ T' X! c, D  s% a[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.
/ X% N% \6 m' C! m6 ~
7 z; C+ s: P2 G# x  F& p5 J* s- END -
( ~+ D1 h' W3 b3 b/ P1 }8 T2 v
2 W7 v' O- w! _* {軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。1 _: y0 n% J) F6 R- D
點擊左下角"閱讀原文"馬上申請
7 c7 |, l: X9 o4 I6 e2 C8 E! o" X8 ~% J2 }, ]0 N* h+ b. V; |
歡迎轉(zhuǎn)載9 y) Q0 ]/ F1 D7 p" ?' l. x: ?

, `+ y0 C( {0 o$ |) `轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
0 V! ^3 H' H8 @# d9 y$ d" q5 N+ k  ]( ^( m% M4 A

) X* h% R) g5 U& C4 U

9 ], N: N8 W6 o5 ]3 E- S1 [
7 }) g& ?: N  }9 f1 Q+ q# t/ G/ t/ ^* T5 F: A; c
關(guān)注我們
) i& p, ^0 n/ V8 l9 t3 \: ~3 b2 X% i; v; o' f) e* m

* d, w* Q. m' B8 H
( }- b' |0 ?# m- F/ \2 v

/ o+ N5 a# H. |  c3 |' [6 D
1 B" T, F: j' b  H6 T7 |

2 N0 B4 {, E& m0 s7 q" c% Z 2 j' `* D$ S" D0 y) c5 c
                     
7 }2 C9 D4 z) t2 J5 F! J' x% k1 p" V% F: ^$ o% k7 d

7 F2 m2 _" i# F6 t( w) D1 D# _( E# |8 d1 Y2 r
關(guān)于我們:, }- O7 S) ?* I; M; T
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
! Q* c* H/ e& P& J! w  o0 A. S
( b1 c) E) M: l/ C; ~0 d) _! Mhttp://www.latitudeda.com/
/ `" E! E+ C: Y4 D( m(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
回復

使用道具 舉報

發(fā)表回復

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規(guī)則

關(guān)閉

站長推薦上一條 /1 下一條


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表