Hot Chips 2024 | 可持續(xù)計算在AI和云原生工作負載中的應用

逍遙設計自動化 · 發(fā)表于昨天 08:00

引言
在當今快速發(fā)展的技術環(huán)境中，對高效且可持續(xù)的計算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負載的復雜性和規(guī)模不斷增長，需要能夠處理這些任務同時最大限度減少能源消耗的處理器變得極為重要。AmpereOne應運而生，這是一系列突破性的云原生處理器，旨在直面現(xiàn)代計算的挑戰(zhàn)[1]。

處理器設計的范式轉變
傳統(tǒng)的處理器設計技術在滿足當今工作負載需求方面已達到極限。AmpereOne代表了范式轉變，摒棄了傳統(tǒng)的渦輪頻率和超線程等方法。相反，它專注于功率優(yōu)化、一致的性能和線性核心擴展。

圖1展示了從傳統(tǒng)處理器技術到AmpereOne創(chuàng)新方法的轉變，強調了功率優(yōu)化和線性核心擴展的重點。

AmpereOne路線圖：持續(xù)創(chuàng)新的承諾
AmpereOne的產品路線圖展示了快速創(chuàng)新的步伐，明確承諾在氣冷環(huán)境下為AI計算提供每機架最佳性能。路線圖從當前的AmpereOne系列開始，具有高達192個核心的5nm工藝，一直延伸到未來的迭代版本，如AmpereOne Aurora，承諾提供高達512個核心，并集成用于訓練和推理工作負載的AI硅。

圖2展示了AmpereOne的產品路線圖，展示了從當前型號到未來迭代的發(fā)展過程，核心數(shù)量不斷增加，功能不斷先進。

深入了解AmpereOne核心
AmpereOne性能的核心在于其創(chuàng)新的核心設計。讓我們探索使該處理器脫穎而出的關鍵組件：

1. 前端

最先進的分支預測

解耦的預測和獲取流水線

用于大代碼足跡的高帶寬接口

2. 執(zhí)行

8個調度器供給12個執(zhí)行管道

對稱的整數(shù)和FP/矢量執(zhí)行管道

通過單uop int8 MMLA支持AI推理吞吐量

3. 加載存儲單元

64KB，4路寫直通DL1緩存

4周期整數(shù)加載使用延遲

從零開始的熔斷保護

4. 內存管理

支持任何頁面大小的通用TLB條目

用于頁面遍歷的專用L2接口

優(yōu)化的TLB維護響應時間

5. L2緩存

2MB 8路私有L2數(shù)據(jù)/指令緩存

11周期加載使用延遲

請求率和預取的自適應節(jié)流

圖3概述了AmpereOne核心流水線，突出顯示了各個組件及其互連。

AmpereOne的分解架構
AmpereOne的一個關鍵創(chuàng)新是分解架構。這種方法將計算、內存和PCIe子系統(tǒng)分離到不同的芯片上，每個芯片使用最合適的制程制造。然后，這些組件通過Ampere的自定義芯片間(D2D)互連連接，每個方向能夠達到2.8TB/s的帶寬。

圖4展示了AmpereOne的分解架構，顯示了計算、內存和PCIe組件如何分離和互連。

這種靈活的架構允許：

使用相同的構建塊實現(xiàn)8通道和12通道設計

快速集成客戶IP

定制以滿足獨特的客戶I/O和內存需求

增強安全性和性能的先進功能
內存標記
AmpereOne引入了強大的內存標記功能，增強了穩(wěn)健性和安全性。這一功能有助于檢測指針編程錯誤并減輕利用內存安全漏洞的攻擊。

內存標記的關鍵方面：

每16字節(jié)內存粒度獲得4位"分配標記"

指針在地址的高位攜帶"訪問標記"

核心對每次內存訪問檢查"訪問標記 = 分配標記"

不匹配會導致故障并阻止數(shù)據(jù)訪問

圖5演示了內存標記的概念，顯示了標記如何與內存分配和指針相關聯(lián)。

自適應流量管理
為了提供一致和可擴展的性能，AmpereOne采用了自適應流量管理。這一能力對于最小化運行間變異和獨立并發(fā)工作負載之間的干擾非常關鍵。

運行原理：

內存服務代理通報"繁忙"程度

核心相應地修改請求流量的速率和配置

針對不同工作負載行為的自適應響應

圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲，展示了自適應流量管理的有效性。

性能領先地位
AmpereOne在各種基準測試和工作負載中展示了令人印象深刻的性能指標：

1. SPECrate 2017_int_base:

每機架性能比AMD Genoa高出34%

每瓦性能比AMD Genoa高出50%

圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準測試中的每機架性能和每瓦性能。

2. 云原生工作負載：

鍵值存儲的每機架性能提高了58%

在容器化Web服務、緩存和數(shù)據(jù)庫方面有顯著改進

圖8展示了AmpereOne在各種云原生工作負載中相對于AMD Genoa和AMD Bergamo的每機架性能改進。

3. AI推理：

在無GPU推理性能和效率方面處于領先地位

在各種AI模型（包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B）中表現(xiàn)出色

圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。

生態(tài)系統(tǒng)就緒
任何處理器架構的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個類別中都擁有強大的生態(tài)系統(tǒng)：

操作系統(tǒng)：支持流行的Linux發(fā)行版，如Alma Linux和Ubuntu

編排、虛擬化和容器：與Docker、Kubernetes和VMware等領先平臺兼容

語言和運行時：支持Java、Python、Go等

網(wǎng)絡和存儲：與Mellanox、Marvell等解決方案集成

應用程序：準備用于廣泛的Web服務、數(shù)據(jù)庫、AI和云游戲應用

圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持，突出顯示了各種軟件和硬件兼容性類別。

結論
AmpereOne代表了AI和云原生工作負載處理器設計的重大進步。其創(chuàng)新架構專注于可持續(xù)計算和可擴展性能，使其在快速發(fā)展的數(shù)據(jù)中心和云計算領域處于領先地位。隨著對高效AI處理需求的持續(xù)增長，AmpereOne在分解設計、先進安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構建下一代云基礎設施的極具吸引力的選擇。

通過優(yōu)先考慮每瓦性能和適應多樣化工作負載的能力，AmpereOne不僅滿足了行業(yè)的當前需求，還為未來可持續(xù)計算的創(chuàng)新奠定了基礎。隨著我們邁向日益由AI驅動的世界，像AmpereOne這樣的處理器將在確保我們的技術進步不以環(huán)境可持續(xù)性為代價方面發(fā)揮關鍵作用。

參考文獻
[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.

END
3 K, ?6 U( H+ g# z. B+ K+ f' t

軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用，PIC Studio都可提升您的工作效能。
點擊左下角"閱讀原文"馬上申請

歡迎轉載

轉載請注明出處，請勿修改內容和刪除作者信息！

" S+ \5 M7 i$ h6 @# |4 F( B

關注我們

. f3 l6 j7 o/ X0 k- R4 Z

關于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導體芯片設計自動化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件，提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務，廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內外晶圓代工廠及硅光/MEMS中試線合作，推動特色工藝半導體產業(yè)鏈發(fā)展，致力于為客戶提供前沿技術與服務。

http://www.latitudeda.com/
（點擊上方名片關注我們，發(fā)現(xiàn)更多精彩內容）

Hot Chips 2024 | 可持續(xù)計算在AI和云原生工作負載中的應用

發(fā)表回復

精選推薦

站長推薦 /1