research / 2026-05-14

MI455X Helios 機架——AMD 第一個正面對打 NVL72 的 rack-scale 系統

AMD 在 CES 2026 把 MI455X + Helios 開放式機架擺上桌,72 GPU、31 TB HBM4、2.9 EFLOPS FP4,已被 Oracle、OpenAI、Meta 三家總共預訂 12 GW 以上產能。

為什麼 Helios 是 AMD 的反擊起點

MI300X 雖然在 2024 拿到第一波 AI 訂單,但只是 8-GPU 單機方案,沒辦法跟 NVIDIA GB200 NVL72 那種 rack-scale 系統正面比。CES 2026 AMD 公開 Helios 機架 + MI455X,才是第一次有 整櫃 可以擺出來和 NVL72 站同一個維度比較——同時也預告 2H 2026 出貨、Q2 2027 量產的時序,剛好咬住 Rubin NVL72 量產的窗口。

ServeTheHome 在 CES 2026 把 Helios 機架實機拍下:18 個 compute tray、每 tray 4 顆 MI455X、合計 72 GPU + 18 顆 EPYC Venice CPU;雙寬機殼大約 7000 lb。AMD 自己的官方說明把 Helios 定位為「Built on Meta's 2025 OCP design」——基底是 Meta 在 2025 OCP Summit 推出的開放機架,AMD 把自家 silicon + 散熱與電源整合上去。這也是為什麼 HPE 在 2026 4 月成為首家公開宣布採用 Helios 的主要 ODM 夥伴。

Helios 機架硬體拆解

  • GPU:72× MI455X,CDNA 5 架構,TSMC N2 製程,每顆 432 GB HBM4、19.6 TB/s 頻寬,20 PFLOPS FP8 / 40 PFLOPS FP4。整櫃合計 31 TB HBM4、1.4 PB/s 總頻寬、2.9 EFLOPS FP4。
  • CPU:18× EPYC Venice(Zen 6 server,TSMC N2 級),每 compute tray 一顆,做為 host。
  • 網路:Pensando Vulcano 800 AI NIC(每 GPU 一張,800 Gb/s)+ Pensando Salina 400 DPU(管理面)。Scale-up fabric 用 UALink (UALoE72),每 GPU scale-up 頻寬 3.6 TB/s、scale-out 300 GB/s。
  • 散熱:全機架液冷,採「distributed cold plate + flexible hose」設計——每顆 GPU 跟每片 HBM4 都各自一塊獨立冷板、用軟管串接,避免大面積板貼合精度問題。液冷甚至延伸到 DIMM。單 GPU 熱密度超過 1200 W,傳統氣冷已經不可能 cover。
  • 封裝:CoWoS-L 3.5D(TSMC),每顆 MI455X 一個 package;ABF 高層數基板由 Unimicron / Ibiden / AT&S 多源供應。

供應鏈關鍵節點

HBM4 三家:Samsung 被 TrendForce 2026-03-19 點名為 MI455X 主要 HBM4 供應商,這是它從 NVIDIA-SK Hynix 體系搶到 AMD 訂單的指標性新聞;同篇報導也提到 Samsung 可能用 HBM 供給當槓桿,談 AMD 部分 AI 晶片轉到 Samsung Foundry SF2P 製造。SK Hynix 跟 Micron 預期當 secondary,但份額未公開。

Foundry:目前 7nm 以下高階節點仍 100% 由 TSMC 出,包含 N2 邏輯 + CoWoS-L 封裝。Samsung SF2P 那單 TrendForce 2025-12-15 講 2026 年初要拍板,但截至本文撰寫沒有確定。

散熱台廠:AMD 沒公開點名 Helios 的冷板供應商。考慮液冷規格類似(distributed cold plate、>1200 W 熱密),合理推估 AVC (3017.TW)、Auras (3324.TWO)、Jentech (3653.TW)、Delta (2308.TW) 這 Rubin 那個 vendor pool 會有相當大的重疊,但未獲公開 confirm,列為 secondary。

ODM:HPE 是第一家公開宣布採用 Helios 的主要 ODM;Foxconn、Quanta 沒有 confirm,但通常 AI rack-scale 案子台廠 ODM 都會在內。

AMD 自家 silicon:Pensando 系列(Vulcano 800 NIC + Salina 400 DPU)完全 in-house,這是 AMD 跟 NVIDIA 在 NIC/DPU 上對等的籌碼,避開 Mellanox 體系。

客戶:Oracle、OpenAI、Meta,總共 12 GW 在排隊

公開的三筆大單:

  • Oracle:50,000 顆 MI450 GPU,2026 年內部署,跑在 Helios 架構上(Tom's Hardware 2026 報導)。
  • OpenAI:2025-10-06 宣布的 6 GW deal——OpenAI 將用 MI450 蓋第一個 1 GW 資料中心,2H 2026 啟動(TechCrunch)。
  • Meta:2026-02-24 宣布擴大策略合作,總計 6 GW、跨多代 Instinct GPU,首批 1 GW 部署 2H 2026 開始,是基於 MI450 架構的「客製版」(ServeTheHome)。

OpenAI 跟 Meta 合計就是 12 GW 已承諾的 AMD GPU——比 AMD 過去任何一年的資料中心 GPU 出貨都大一個數量級,這也是 AMD 為什麼會在 Helios + MI450/MI455X 投這麼重。

對打 NVIDIA NVL72:時序與比較

NVIDIA Vera Rubin NVL72AMD Helios (72× MI455X)
GPU 數7272
ProcessTSMC N3PTSMC N2
HBMHBM4,每 GPU 容量約 216 GBHBM4,每 GPU 432 GB(雙倍)
FP4 / FP8接近平手接近平手
散熱液冷液冷(distributed)
Scale-upNVLink-6 (260 TB/s aggregate)UALink UALoE72 (3.6 TB/s per GPU)
Networking NICConnectX-9 / BlueFieldPensando Vulcano 800
量產時序2026 H2MI455X 工程樣品 2H 2026、量產 Q2 2027
主要 HBM 供應商SK Hynix(主)、Samsung、MicronSamsung(主)、SK Hynix、Micron

AMD 帳面上拿出比較「HBM 雙倍容量」這張牌——這在 long-context inference 跟更大模型 fine-tune 都是賣點。但量產時序晚 NVIDIA 約 2 季,所以 2026 整年市占 NVIDIA 仍會壓倒性領先。AMD 的牌是 2027 之後——Q2 2027 量產時,Helios 才開始進入規模出貨。

觀察重點 / 風險

  • HBM4 yield:Samsung HBM4 從 HBM3E 落後翻身,產能跟良率還在驗證階段。如果 Samsung HBM4 出狀況,MI455X ramp 直接卡住。
  • CoWoS-L 共用瓶頸:跟 Rubin 用同一條 TSMC CoWoS-L 產線。2026-2027 是 TSMC CoWoS-L 雙倍擴產期,但結構性 short 的情況下 AMD 跟 NVIDIA 是直接爭產能。
  • UALink vs NVLink 軟體生態:UALink 是 AMD 主推的開放標準,但 NVLink 累積 10 年生態,scale-up 軟體棧(如 NCCL)短期沒辦法超越。Helios 賣的是 open + 雙倍 HBM;但模型訓練最後落地,scale-up fabric 軟體成熟度仍是 NVIDIA 護城河。
  • MI455X 真正量產要等 Q2 2027:CES 2026 看到的是工程樣品。2H 2026 出貨主要是 MI450(UBB8 server 形態),不是 Helios 整櫃。投資人要分清楚 MI450(先到)跟 MI455X 整櫃(晚 2-3 季)。
  • HPE 之外的 ODM:誰是 Helios 第二家、第三家 ODM 重要——HPE 體量遠不如 Foxconn/Quanta,AMD 要拼量產還需要這些台廠回頭支援。

來源

最後更新:2026-05-14 · source: content/research/mi455x-helios-rack.md