|
引言
& U1 w: i) z5 C, }" u# d在當(dāng)今快速發(fā)展的技術(shù)環(huán)境中,對高效且可持續(xù)的計算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負(fù)載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負(fù)載的復(fù)雜性和規(guī)模不斷增長,需要能夠處理這些任務(wù)同時最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計算的挑戰(zhàn)[1]。. i, F4 v' ]" t2 @6 Q
4 ~) ~: Z) B* g2 {# V. B( s0 W處理器設(shè)計的范式轉(zhuǎn)變6 w. E% g# P1 `9 g. J, a" I
傳統(tǒng)的處理器設(shè)計技術(shù)在滿足當(dāng)今工作負(fù)載需求方面已達(dá)到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線程等方法。相反,它專注于功率優(yōu)化、一致的性能和線性核心擴展。, Q8 p/ n R$ n2 t
uq1nz3ceyd3640112469142.png (132.3 KB, 下載次數(shù): 0)
下載附件
保存到相冊
uq1nz3ceyd3640112469142.png
3 小時前 上傳
; O3 G U# h2 I4 L
圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強調(diào)了功率優(yōu)化和線性核心擴展的重點。
5 ~! w# Z0 X2 @- H6 o }$ A' ]% m/ D" E2 O% R1 D
AmpereOne路線圖:持續(xù)創(chuàng)新的承諾+ U3 V" a% D$ ?7 {3 t
AmpereOne的產(chǎn)品路線圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計算提供每機架最佳性能。路線圖從當(dāng)前的AmpereOne系列開始,具有高達(dá)192個核心的5nm工藝,一直延伸到未來的迭代版本,如AmpereOne Aurora,承諾提供高達(dá)512個核心,并集成用于訓(xùn)練和推理工作負(fù)載的AI硅。& Z# M3 C) j ?- r, B4 s
nxxxdumrr4p640112469242.png (197.01 KB, 下載次數(shù): 0)
下載附件
保存到相冊
nxxxdumrr4p640112469242.png
3 小時前 上傳
+ V r6 C% ?1 r5 w" i1 G圖2展示了AmpereOne的產(chǎn)品路線圖,展示了從當(dāng)前型號到未來迭代的發(fā)展過程,核心數(shù)量不斷增加,功能不斷先進。
4 f2 N9 M5 G! k0 f6 r
4 u& s$ Y7 K: M. V深入了解AmpereOne核心
% N9 B# W9 [; G$ y* `) D! k" `AmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:
# _" k& W- F6 b4 d" p
* D6 Y9 M8 {0 Q9 m: Z2 r, P6 r* W1. 前端
/ \2 b6 R4 k$ S" G7 ^最先進的分支預(yù)測解耦的預(yù)測和獲取流水線用于大代碼足跡的高帶寬接口' Z7 ^% s) i4 |8 @; Z' M
# b( Z' _& k+ _( S8 w7 \2 }& j7 U
2. 執(zhí)行. h7 B/ I$ K; ]$ M
8個調(diào)度器供給12個執(zhí)行管道對稱的整數(shù)和FP/矢量執(zhí)行管道通過單uop int8 MMLA支持AI推理吞吐量) U% H c) m4 b! X8 ]2 \
_0 h. A; Y( z( M5 ~1 w- p3. 加載存儲單元
, R% w9 \+ v# p& N4 z64KB,4路寫直通DL1緩存4周期整數(shù)加載使用延遲從零開始的熔斷保護
5 @" ?# Z( m6 N7 N) c8 a( C- H) F8 {8 m. x0 O& ~7 K# U
4. 內(nèi)存管理( C/ H: ^7 a* U% H3 h
支持任何頁面大小的通用TLB條目用于頁面遍歷的專用L2接口優(yōu)化的TLB維護響應(yīng)時間7 Z: c! D/ _8 j: j' R8 \
3 ^* ]6 f; c9 {4 j9 o7 P3 G5. L2緩存% x$ ~) K9 @% k& [
2MB 8路私有L2數(shù)據(jù)/指令緩存11周期加載使用延遲請求率和預(yù)取的自適應(yīng)節(jié)流6 I- Y" d$ A+ V
+ D7 J2 P% v/ V5 E
- n8 _3 r4 a+ l* n9 S0 c+ j3 S
yjgwmsbkfv5640112469343.png (258.95 KB, 下載次數(shù): 0)
下載附件
保存到相冊
yjgwmsbkfv5640112469343.png
3 小時前 上傳
6 Y' e2 |7 u) R8 j5 y1 V
圖3概述了AmpereOne核心流水線,突出顯示了各個組件及其互連。
7 S6 J+ M' K8 l- }4 z0 ? }" Z; B% Q) p3 ~. d7 z% i
AmpereOne的分解架構(gòu)4 g! K! h3 Y6 x3 M/ |4 O
AmpereOne的一個關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個芯片使用最合適的制程制造。然后,這些組件通過Ampere的自定義芯片間(D2D)互連連接,每個方向能夠達(dá)到2.8TB/s的帶寬。1 x4 {; M8 |; F$ u9 i# N
mcccjpnso5p640112469443.png (143.58 KB, 下載次數(shù): 0)
下載附件
保存到相冊
mcccjpnso5p640112469443.png
3 小時前 上傳
0 I+ H# [! u7 z4 _* j+ {圖4展示了AmpereOne的分解架構(gòu),顯示了計算、內(nèi)存和PCIe組件如何分離和互連。
1 P- _( ^2 F% Z+ v9 Z" ^8 z/ K7 l) ]9 E4 n
這種靈活的架構(gòu)允許:
" n. W% k3 u" W0 X& G( G! a使用相同的構(gòu)建塊實現(xiàn)8通道和12通道設(shè)計快速集成客戶IP定制以滿足獨特的客戶I/O和內(nèi)存需求7 a1 r$ k0 s0 ~ T9 x) N. t/ x
% I! l7 p' p+ [" \增強安全性和性能的先進功能
5 y4 I6 L4 D2 Y6 Q6 S9 D" g/ w內(nèi)存標(biāo)記
- |. p9 A' }' v9 a1 ?+ E5 oAmpereOne引入了強大的內(nèi)存標(biāo)記功能,增強了穩(wěn)健性和安全性。這一功能有助于檢測指針編程錯誤并減輕利用內(nèi)存安全漏洞的攻擊。) o F: l, u) T
- Z- p+ e) ~$ t# S$ w0 T$ s內(nèi)存標(biāo)記的關(guān)鍵方面:
. ]7 B( F# K: H B4 @每16字節(jié)內(nèi)存粒度獲得4位"分配標(biāo)記"指針在地址的高位攜帶"訪問標(biāo)記"核心對每次內(nèi)存訪問檢查"訪問標(biāo)記 = 分配標(biāo)記"不匹配會導(dǎo)致故障并阻止數(shù)據(jù)訪問
3 v5 G+ p4 X* I1 ~0 ?, _4 X5 q1 r: k6 S% i& x+ k0 |
3 U* P2 Z& c1 ?+ R$ r
nlqco5wqc1y640112469543.png (251.8 KB, 下載次數(shù): 0)
下載附件
保存到相冊
nlqco5wqc1y640112469543.png
3 小時前 上傳
) I, s- z& p) b5 R( f5 y
圖5演示了內(nèi)存標(biāo)記的概念,顯示了標(biāo)記如何與內(nèi)存分配和指針相關(guān)聯(lián)。( y: C4 u: ^, r: [
) K8 Q& t+ Y, E' Z3 q: _5 k$ O
自適應(yīng)流量管理
, S5 S& D ^ N ?/ x, }* ]* Z為了提供一致和可擴展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對于最小化運行間變異和獨立并發(fā)工作負(fù)載之間的干擾非常關(guān)鍵。% e0 P' ~& d2 ^( J% m6 p
/ d3 E0 L: ]. S" s, c
運行原理:
+ D X$ V/ f1 B- U3 `內(nèi)存服務(wù)代理通報"繁忙"程度核心相應(yīng)地修改請求流量的速率和配置針對不同工作負(fù)載行為的自適應(yīng)響應(yīng)6 j4 S3 ^. ~2 v" c! B
* k7 h/ C- G% J$ O" R1 O: X8 X2 h1 P2 K* ^# n8 v3 L1 s/ X( D5 X& m
jhtr4ttesbk640112469643.png (260.76 KB, 下載次數(shù): 0)
下載附件
保存到相冊
jhtr4ttesbk640112469643.png
3 小時前 上傳
. {8 ` Y! f/ H5 F( {# C1 K圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。8 W+ u( W8 T8 N& b
+ t- z6 V; g# t, u; O
性能領(lǐng)先地位7 l0 M# z* R5 q w3 d- t% |) a8 l
AmpereOne在各種基準(zhǔn)測試和工作負(fù)載中展示了令人印象深刻的性能指標(biāo):
8 @7 `! K9 r" [$ X1 g/ t; {- d# W" |- b) d% k
1. SPECrate 2017_int_base:, e# q4 B6 t9 Z$ G8 F( F$ [
每機架性能比AMD Genoa高出34%每瓦性能比AMD Genoa高出50%2 E- y; W# Y7 u; A) b' V& b/ L. W- A
$ _! O$ f B3 H: u. w' Y
6 A8 F1 |- v' \; ?& u! {! s" n
/ g: _! A8 e; W4 \; }圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準(zhǔn)測試中的每機架性能和每瓦性能。( P9 H4 L/ X& F" W" N* w7 M+ `
" M' j' X) d L2. 云原生工作負(fù)載:( f5 _+ L$ Y/ a
鍵值存儲的每機架性能提高了58%在容器化Web服務(wù)、緩存和數(shù)據(jù)庫方面有顯著改進
) f, n) [# M2 V- T K0 o$ _- o2 ^0 M* x/ Z: C9 q1 r
" B+ b/ k4 S9 K% b" C; l* t+ h; v2 Y
su42cbzjji2640112469844.png (184.4 KB, 下載次數(shù): 0)
下載附件
保存到相冊
su42cbzjji2640112469844.png
3 小時前 上傳
" h+ x2 B; h0 x0 h. I
圖8展示了AmpereOne在各種云原生工作負(fù)載中相對于AMD Genoa和AMD Bergamo的每機架性能改進。! Q+ i4 ^" d8 N" D0 N
* ?; q( x% N* l
3. AI推理:+ {( Z# r: i* O- Y- e3 F1 ]
在無GPU推理性能和效率方面處于領(lǐng)先地位在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色
! E, u: M! w4 R# b) ]2 i0 }+ R5 p
2 i6 X7 e* u2 C/ j9 d6 i
ulcnfjlumvu640112469944.png (254.06 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ulcnfjlumvu640112469944.png
3 小時前 上傳
$ J! E: o" i; r$ ^/ f4 W圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。
' u! B5 l$ R9 y
' ]! b# w; E. B: R: D8 T8 F生態(tài)系統(tǒng)就緒( `8 f* O! ~7 @. b5 N9 z( `0 p
任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個類別中都擁有強大的生態(tài)系統(tǒng):
8 {. L; ~' `2 U4 g1 w: q操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺兼容語言和運行時:支持Java、Python、Go等網(wǎng)絡(luò)和存儲:與Mellanox、Marvell等解決方案集成應(yīng)用程序:準(zhǔn)備用于廣泛的Web服務(wù)、數(shù)據(jù)庫、AI和云游戲應(yīng)用
% W( ?2 K! @! a0 [+ `4 f7 p. h) X+ K4 R8 Y
& ?. n2 Y6 m4 n
0hbp4221e3a640112470044.png (216.43 KB, 下載次數(shù): 0)
下載附件
保存到相冊
0hbp4221e3a640112470044.png
3 小時前 上傳
$ _2 j8 m. c' S2 S- D. g; D, y
圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類別。7 R9 O4 u& T. X4 S
; O2 o9 n2 h; \- [. U7 Q結(jié)論2 Y% t% y1 w7 w& m3 E1 B
AmpereOne代表了AI和云原生工作負(fù)載處理器設(shè)計的重大進步。其創(chuàng)新架構(gòu)專注于可持續(xù)計算和可擴展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計算領(lǐng)域處于領(lǐng)先地位。隨著對高效AI處理需求的持續(xù)增長,AmpereOne在分解設(shè)計、先進安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。
( q$ `- F5 M6 m% |6 n: x% U3 `
6 s( a* X" O/ @3 M" W+ g: ^9 ~通過優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負(fù)載的能力,AmpereOne不僅滿足了行業(yè)的當(dāng)前需求,還為未來可持續(xù)計算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進步不以環(huán)境可持續(xù)性為代價方面發(fā)揮關(guān)鍵作用。+ ^3 F' E3 q( C' W; E' q
' n1 U* X( [- ]1 z1 N( J
參考文獻(xiàn)
+ n! n( T% L' Q& K[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.- y* L9 @, ^9 T
$ \& W/ F% R# J# sEND
* Z: { h$ E7 M) d
& D- o, G" S: @0 P# d3 _2 P& Q) \0 z* H, ]
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。7 I# ~: o6 M) K k( E3 S
點擊左下角"閱讀原文"馬上申請
) n$ s& b' _& i* I: }. A3 t" V' l+ X3 r- \- E2 Z- J& C- ]4 T
歡迎轉(zhuǎn)載6 ~* m; d! y5 E( J6 z
) d+ b: ?8 z: S$ t; G. `6 j1 a1 C
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
% x& Q0 [7 R" S7 F5 o o' F f$ ^
8 N' c! l5 G# y9 l1 B" k6 C
! Q% C% ^; _) S
c2dgcf5cv33640112470144.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
c2dgcf5cv33640112470144.gif
3 小時前 上傳
+ Z- J: i$ ?( k. ]1 d5 C L7 M! X! L- X* T
關(guān)注我們* t" }0 q" @1 ^% Z3 J% Z1 r: u( x
8 s9 K$ j x, V5 p7 H
/ k! R: n. b+ [& u! r4 b" a
rj20gyvvgpw640112470244.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
rj20gyvvgpw640112470244.png
3 小時前 上傳
# \2 q7 {# B$ N/ B, y- i6 }. u
|
+ _ y& o8 L* @# m! U7 R
xf30cmr0kwg640112470344.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
xf30cmr0kwg640112470344.png
3 小時前 上傳
# Y( E, O H" c |
3 U. c$ _" ^5 Q3 X
000ak3qlygi640112470444.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊
000ak3qlygi640112470444.png
3 小時前 上傳
! N. b( N/ G7 K. k
| . s7 z3 ^8 P& L. ?2 W, i8 R4 G
( y, i7 A1 ?% X/ r8 y- s6 y! }8 ?2 A7 l
# l; L3 O: F& x關(guān)于我們: N5 o3 E4 V3 E$ s% l: Y
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
5 u, J8 q% r* {7 K/ r8 ^! G
6 b3 u- C( F4 ~! F) U' Xhttp://www.latitudeda.com/; X8 q6 p. R& L8 Z
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|