Hot Chips 2024 | AMD Instinct MI300X新一代加速器推動(dòng)AI和高性能計(jì)算

逍遙設(shè)計(jì)自動(dòng)化 · 發(fā)表于昨天 08:02

引言
本文旨在幫助讀者了解AMD Instinct MI300X加速器，這款加速器代表了人工智能（AI）和高性能計(jì)算（HPC）技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能，展示其如何滿足生成式AI和大型語(yǔ)言模型（LLMs）不斷增長(zhǎng)的需求。

AMD Instinct MI300X簡(jiǎn)介
AMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上，MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。

圖1：AMD Instinct加速器的演進(jìn)歷程，展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。

架構(gòu)概述
MI300X的核心是AMD CDNA 3架構(gòu)，采用多Chiplet設(shè)計(jì)，包含1530億個(gè)晶體管，使用臺(tái)積電5nm和6nm FinFET工藝制造。

圖2：詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu)，包括多個(gè)XCD（GPU Chiplet）、HBM3內(nèi)存和互連設(shè)計(jì)。

MI300X的主要特性包括：

304個(gè)計(jì)算單元

1,216個(gè)矩陣核心

192GB HBM3內(nèi)存，帶寬達(dá)5.2 TB/s

第四代Infinity Fabric，帶寬高達(dá)896 GB/s

MI300X的架構(gòu)針對(duì)AI工作負(fù)載進(jìn)行了優(yōu)化，特別是在矩陣運(yùn)算和低精度計(jì)算方面。

CDNA 3架構(gòu)改進(jìn)
CDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升：

每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍

支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性

新增TF32和FP8數(shù)值格式支持

支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行

圖3：MI300X與MI250X計(jì)算能力的詳細(xì)對(duì)比，突顯各種數(shù)據(jù)格式的性能提升。
: M4 ~1 e/ V3 o+ |! x; J

內(nèi)存系統(tǒng)
MI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng)：

全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)

每個(gè)加速器配備192GB HBM3內(nèi)存

5.2 TB/s的內(nèi)存帶寬

這種大容量?jī)?nèi)存使MI300X能夠處理比競(jìng)爭(zhēng)對(duì)手更大的AI模型。例如，單個(gè)MI300X平臺(tái)可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。

圖4：AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對(duì)比。

緩存層級(jí)和Infinity Cache
MI300X具有復(fù)雜的緩存層級(jí)結(jié)構(gòu)：

每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存

每?jī)蓚€(gè)計(jì)算單元共享64 KiB L1指令緩存

每個(gè)XCD有4 MiB L2緩存

256 MiB Infinity Cache

圖5：MI300X的緩存和內(nèi)存層級(jí)結(jié)構(gòu)圖。

Infinity Cache是一個(gè)亮點(diǎn)特性，提供256 MB緩存，峰值帶寬達(dá)14.7 TB/s，在帶寬放大、功耗降低和延遲改善方面帶來(lái)顯著益處。

空間分區(qū)和虛擬化
MI300X支持靈活的空間分區(qū)，允許將GPU分為多個(gè)分區(qū)：

可以分為與XCD數(shù)量相等的分區(qū)

支持單根I/O虛擬化（SR-IOV），每個(gè)平臺(tái)最多64個(gè)虛擬功能（VF）

支持動(dòng)態(tài)重新分區(qū)以優(yōu)化工作負(fù)載

圖6：展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置，突顯其在不同工作負(fù)載和虛擬化場(chǎng)景下的靈活性。

AMD Instinct MI300X平臺(tái)
MI300X設(shè)計(jì)為在平臺(tái)配置中工作，通常包括：

8個(gè)AMD Instinct MI300X加速器

BF16/FP16性能約為10.4 PetaFLOPS

總計(jì)1.5 TB HBM3內(nèi)存

Infinity Fabric帶寬約為896 GB/s

圖7：AMD Instinct MI300X平臺(tái)的概覽，展示其作為領(lǐng)先生成式AI平臺(tái)的關(guān)鍵特性。

Infinity平臺(tái)和生態(tài)系統(tǒng)
MI300X Infinity平臺(tái)通過(guò)AMD Infinity Fabric為8個(gè)OAM（開(kāi)放加速器模塊）提供直接連接：

七個(gè)雙向鏈路，每個(gè)帶寬為128 GB/s

每個(gè)OAM配備PCIe Gen 5 x16，用于服務(wù)器連接和I/O

192GB HBM用于RDMA（遠(yuǎn)程直接內(nèi)存訪問(wèn)）

圖8：展示了MI300X Infinity平臺(tái)的結(jié)構(gòu)，說(shuō)明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。

該平臺(tái)還符合行業(yè)標(biāo)準(zhǔn)并提供高級(jí)特性：

符合UBB 2.0標(biāo)準(zhǔn)，實(shí)現(xiàn)快速部署和無(wú)縫數(shù)據(jù)中心集成

增強(qiáng)的安全特性，包括SPDM認(rèn)證

全面的RAS（可靠性、可用性、可服務(wù)性）特性

先進(jìn)的遙測(cè)和固件管理功能

軟件生態(tài)系統(tǒng)
AMD為支持MI300X開(kāi)發(fā)了軟件生態(tài)系統(tǒng)：

ROCm（Radeon開(kāi)放計(jì)算）平臺(tái)用于GPU計(jì)算

針對(duì)AI和HPC工作負(fù)載優(yōu)化的庫(kù)

支持流行的AI框架，如PyTorch和TensorFlow

擴(kuò)展的開(kāi)發(fā)者工具和運(yùn)行時(shí)環(huán)境

這個(gè)軟件棧確保開(kāi)發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。

AI工作負(fù)載性能
MI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能：

Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍

Mistral-7B模型的吞吐量高出1.2倍

在模型微調(diào)任務(wù)中表現(xiàn)出色

圖9：AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對(duì)比。

結(jié)論
AMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量?jī)?nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場(chǎng)的有力競(jìng)爭(zhēng)者。隨著對(duì)更大、更復(fù)雜AI模型需求的不斷增長(zhǎng)，MI300X高效處理這些工作負(fù)載的能力使其成為推動(dòng)AI研究和部署的理想選擇。

憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng)，MI300X完全有能力應(yīng)對(duì)從訓(xùn)練大型語(yǔ)言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線，MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動(dòng)創(chuàng)新的承諾。

參考文獻(xiàn)
[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.

- END -

軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)

歡迎轉(zhuǎn)載

轉(zhuǎn)載請(qǐng)注明出處，請(qǐng)勿修改內(nèi)容和刪除作者信息！

: Y1 \/ d" j) u6 R: z* R4 E$ Q0 s4 {

關(guān)注我們

& x; p3 s7 k2 C9 F# i

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化（EDA）的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件，提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點(diǎn)擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

Hot Chips 2024 | AMD Instinct MI300X新一代加速器推動(dòng)AI和高性能計(jì)算

發(fā)表回復(fù)

精選推薦