這是用戶在 2025-7-1 18:44 為 https://finance.sina.com.cn/tech/csj/2025-06-13/doc-inezxpfh6450902.shtml 保存的雙語快照頁面，由沉浸式翻譯提供雙語支持。了解如何保存？

分享到微博

財經科技創事記

蘇媽聯手 OpenAI，AMD 發佈 3nm 怪獸 MI355X，性能碾壓英偉達 B200！

2025-06-13 17：12：20 創事記作者：我有話說（0 人參與）

就在昨天，AMD Advancing AI 大會上，AMD 董事長兼首席執行官蘇資豐一口氣推出了其史上最強的 AI 新品組合！

這些新產品有：

AMD Instinct MI350 系列 AI 晶片
AMD Instinct MI400 系列 AI 晶片（明年推出）
全新 AI 軟體棧 ROCm 7.0
「Helios」AI 機架級基礎設施（明年推出）
全新 AMD 開發者雲

其中 Instinct MI350 系列，包括 MI350X 和旗艦 MI355X，基於台積電 3 奈米工藝節點的全新 CDNA 4 架構，集成高達 1850 億個晶體管。

這兩款晶元的主要區別在於散熱方式不同，前者使用風冷，後者使用更先進的液冷。

新晶元支援最新的 FP6 和 FP4 人工智慧數據類型，並配備了超大容量的 HBM3e 記憶體。

在 FP6 推理精度上，AMD Instinct MI355X 相比 B200 有 2.2 倍的速度提升。

現場，蘇媽還補充了 MI400 系列的細節。

MI400 將採用 HBM4 顯存，每顆 GPU 提供 423GB 容量，並通過 Pensando 網卡支援 300GB/s 的連接，將於明年推出。

性能相比 Instinct MI355X 又是巨大的飛躍。

基於 MI400 系列晶元的 AMD 首個 AI 機架「Helios」，也將在明年推出。

Helios 支援將多達 72 個 MI400 集成，支持高達 260T/s 的擴展頻寬，FP4 峰值算力達到了 2.9EFLOPS。

「這是世界上最好的 AI 機架解決方案」，蘇媽表示。

奧特曼壓軸登場，

AMD 開啟與 OpenAI 合作

現場的一個亮點是 OpenAI CEO 奧特曼作為嘉賓壓軸出場，他表示 OpenAI 將使用 AMD 的 AI 晶元。

蘇媽表示對與 OpenAI 的合作感到興奮。

「當你最初向我介紹規格時，我簡直不敢相信，那聽起來太瘋狂了，」奧特曼說「不過這東西絕對會很厲害」。

AMD 的機架式設計會讓晶元看來就像一個整體系統，這對大多數客戶，比如雲服務商和大語言模型公司來說非常重要。

這些客戶想要的就是「超大規模」的人工智慧計算集群，能覆蓋整個數據中心，當然耗電量也會超級大。

「可以把 Helios 想像成一個機架，但它運作起來就像一台超強的單體計算引擎，」蘇媽說。

AMD 的新機架技術令蘇媽有底氣與黃仁勳掰掰手腕。英偉達是 AMD 的主要也是唯一的對手。

據透露，英偉達的大客戶 OpenAI 一直在給 AMD 的 MI400 系列晶元提建議。

這種晶片功耗更低，運行成本更便宜，而且 AMD 採用激進的定價策略來挑戰英偉達。

蘇媽表示，儘管英偉達有獨家的 CUDA 軟體，但即使 MI355X 晶元性能就可以超過英偉達的 Blackwell 晶元。

「這說明我們的硬體很強，也表明開源軟體框架取得了巨大進步，」蘇媽說。

AMD 的 AI 路線圖更加清晰

Instinct MI350 系列

AMD Instinct MI350 系列是 AMD 迄今為止最先進的生成式 AI 平臺，標誌著數據中心 AI 計算的重大突破。

這款晶元採用 3nm 製程工藝，集成了 1850 億顆晶體管，基於 AMD CDNA 4 架構，配備 288GB HBM3e 記憶體，記憶體頻寬高達 8TB/s。

單顆 MI350 GPU 即可運行參數量高達 5200 億的大型模型，展現了其在 AI 訓練和推理中的強大能力。

MI350 系列在 FP4/FP6 精度下的峰值算力達到 20PFLOPS，是上一代 MI300X 的 4 倍，其推理性能更是提升了 35 倍。

在運行 DeepSeek R1 模型時，MI350 系列的推理輸送量超越了英偉達 B200，展現出強勁的競爭力。

MI350 系列包括 MI350X 和 MI355X 兩款產品，均採用相同的計算架構和記憶體配置。

相比 MI300 系列，MI355X 在低精度數據類型處理上進行了大幅優化，以滿足現代 AI 應用的需求。

MI350 系列採用 UBB8 版型設計，每個節點配備 8 塊 GPU，通過 153.6GB/s 的 Infinity Fabric 雙向鏈路實現高效通信。

在 8 卡配置下，MI355X 系統提供 2.3TB HBM3e 記憶體和 64TB/s 記憶體頻寬，FP4/FP6 精度下峰值算力高達 161PFLOPS。

在機架級部署中，MI350 系列展現出強大的擴展能力。

風冷機架最多支援 64 塊 GPU，提供 18TB HBM3e 記憶體; 直接液冷機架可容納 128 塊 GPU，記憶體容量達 36TB，FP4 性能高達 2.6E FLOPS。

這種超大規模的系統配置，使 MI350 系列能夠輕鬆應對複雜 AI 工作負載，為企業級 AI 應用提供堅實支援。

AMD Instinct MI400 系列（明年推出）

蘇媽還公佈了其下一代 AI 晶元 Instinct MI400 系列的細節。

這款預計於 2026 年推出的晶元專為大規模 AI 訓練和分散式推理設計，性能較前代 MI355X 提升高達 10 倍。

MI400 系列在算力上實現了巨大突破。

在 FP4 精度下，其峰值算力高達 40PFLOPS（每秒 40 千萬億次浮點運算），FP8 精度下也能達到 20PFLOPS 的出色表現。

MI400 系列搭載了 432GB 的 HBM4 記憶體，記憶體頻寬達到驚人的 19.6TB/s。

這種超高頻寬的記憶體設計顯著提升了數據處理效率，為複雜 AI 任務提供了強大的支援。

此外，每塊 GPU 支援 300GB/s 的橫向擴展頻寬，通過 Pensando NIC 和超乙太網技術實現跨機架和集群的高效互連，確保分散式計算環境下的無縫協作。

相比上一代 MI355X，MI400 系列通過引入 HBM4 記憶體、優化計算單元和增強互聯技術，實現了性能 10 倍的飛躍。

此外，MI400 系列在能效和擴展性上的優化，使其在應對多樣化 AI 工作負載時更具靈活性。

無論是訓練超大規模語言模型，還是進行分散式推理，MI400 都能提供高效、穩定的計算支援。

在 MI400 系列的發佈會上，OpenAI 首席執行官 Sam Altman 親自登臺，對 MI450 型號給予高度評價。

他表示，OpenAI 與 AMD 工程團隊密切合作，深入探討市場需求，助力 MI400 系列的開發。

全新 AI 軟體棧 ROCm 7.0 重磅來襲

預計 2025 年第三季度，ROCm 7 將全面上線，支援 MI350 系列 GPU。

亮點如下：

性能暴漲：相比 ROCm 6，ROCm 7 推理性能提升超 3.5 倍，訓練性能提升 3 倍！這得益於對 FP4、FP6 等低精度數據類型的支援、通信棧優化以及更高的 GPU 利用率和數據移動效率。在 Llama 3.1 70B、Qwen2-72B、DeepSeek R1 等模型上，ROCm 7 推理和訓練性能比前代提升 3.2~3.8 倍。

分散式推理更強：ROCm 7 引入強大的分散式推理方法，與 SGLang、vLLM、llm-d 等開源框架深度合作，開發共用介面和原語，實現在 AMD 平臺上的高效分散式推理。相比之下，英偉達的 TensorRT-LLM 不支援 DeepSeek R1 的 FP8 精度，而 AMD 合作的開源框架完美支援，MI355X 的推理輸送量比英偉達 B200 高出 30%。

企業級 AI 解決方案：ROCm 企業級 AI 軟體棧首次亮相，打造全棧 MLOps 平臺，專為企業 AI 操作設計，提供安全、可擴展的交鑰匙工具，支援模型微調、合規性、部署和集成。

端側 AI 開發新體驗：ROCm 擴展到 Ryzen 筆記型電腦和工作站，支援 AI 輔助編碼、自動化定製、推理和模型微調。

AMD 通過開源戰略和 ROCm 的持續創新，不僅在 AI 性能上大步向前，還為開發者、企業和用戶帶來了更開放、更高效的 AI 生態！

「Helios」AI 機架級基礎設施（明年推出）

明年，AMD 將推出下一代 AI 機架解決方案——Helios，集成更強悍的 EPYC 「Venice」 CPU、MI400 系列 GPU 和 Pensando 「Vulcano」 NIC。

這套架構支援超乙太網（Ultra Ethernet）實現橫向擴展，結合 UALink（Ultra Accelerator Link）實現縱向擴展，還配備 Fabric Manager 作為 ROCm 生命週期管理的一部分，助力基礎設施自動化，省心又高效。

2026 年，下一代 Pensando 「Vulcano」 AI NIC 將作為 MI400 系列的標配推出。

Vulcano 採用 3nm 製程，提供 800G 網路輸送量，每 GPU 橫向擴展頻寬是上一代的 8 倍，支援 UAL 和 PCIe Gen6，帶寬翻倍，可擴展至 100 萬塊 GPU，且軟體完全向前向後相容。

全新 AMD 開發者雲

AMD 首次推出了開發者雲，助力開發者輕鬆上手 AI 開發！

無需自購硬體或繁瑣配置，只需一個 Github 帳號或郵箱，就能即刻訪問 ROCm 和 AMD GPU。

這個全託管平臺提供對 MI300X GPU 的即時訪問，省去硬體投資和本地設置的麻煩。 Docker 容器已預裝熱門 AI 軟體，節省安裝時間，同時保留代碼定製的靈活性。

計算選項靈活可擴展：

小型：1 個 MI300X GPU（192GB GPU 記憶體）
大型：8 個 MI300X GPU（1536GB GPU 記憶體）

首批註冊的開發者可獲 25 小時免費使用時長，通過 ROCm Star 開發者證書等計劃，還能額外獲得最多 50 小時的免費時間。

参考资料：

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

分享到：

保存 | 列印 | 關閉

0 條評論 |0 人參與網友評論

分享到微博

最热评论

最新评论

更多精彩评论>>