53 萬美金訓練出頂級 AI? 揭秘 MiniMax 的「省錢」絕招
這幾天,MiniMax 搞起了技術周,第一天就放出“王炸”,開源了全球首個大規模混合架構推理模型 MiniMax-M1。 據最新消息,M1 已經成為全球前二的開源模型。
MiniMax 分別用最大生成長度的 40K 和 80K token,訓練了兩個版本的 MiniMax-M1 模型——MiniMax-M1-40k 和 MiniMax-M1-80k。 MiniMax-M1-80k 在複雜的數學和編碼任務上優於 MiniMax-M1-40k。
據觀察,MiniMax-M1 在全球科技領域引起了強烈的反響。 產品不僅迅速佔據海外主流媒體如 VentureBeat、Seekingalpha 等重要版面,更獲得 Aran Komatsuzaki 等行業 KOL 的深度解讀,同時在 TestTM 等國際社交平臺引發討論,形成多維度、跨圈層的傳播矩陣。
(全球科技領域大 V 評論截圖)
(VentureBeat 報導截圖)
而引發海外關注的原因,來自於 M1 的三個核心能力—— 長上下文視窗、RL 訓練成本上的優勢、Agent 工具調用 。
M1 技術報告顯示,在業內主流的 17 個評測集上,M1 的性能表現超越了當前很多頭部模型。 例如 MiniMax-M1-40k 和 MiniMax-M1-80k 在 SWE-bench 驗證基準上分別取得 55.6% 和 56.0% 的優異成績。 在長上下文理解任務中,全面超越所有開源權重模型。 在代理工具使用場景(TAU-bench)中,MiniMax-M1-40k 同樣領跑所有開源權重模型,並戰勝 Gemini-2.5 Pro。
全球最長上下文,MiniMax-M1 是如何做到的?
MiniMax-M1 基於之前的 MiniMax-Text-01 模型開發,總共包含 4560 億個參數,459 億個啟動函數,並具備 32 層架構,其最大的亮點是支援目前業內最高的 100 萬上下文的輸入。
從報告測評結果來看,MiniMax-M1 的上下文輸入長度達到 1M,與閉源模型中的 Google Gemini 2.5 Pro 持平,卻是 DeepSeek R1(128K)的 8 倍。
不僅如此,MiniMax-M1 的推理輸出可達 8 萬 Token,同樣位居業內之首。 這使得 M1 特別適合解決需要處理長文本(比如代碼、論文)和複雜推理(比如數學題、軟體調試)的任務。
依託其百萬級上下文視窗,M1 系列在長上下文理解任務中表現卓越,其中在上下文能力的評測基準 OpenAI-MRCR (128k/1M) 以及 LongBench-v2 中,M1 的表現遠超包括 DeepSeek-R1-0528 和 Qwen3-235B 在內的所有開源模型,甚至超越 OpenAI o3 和 Claude 4 Opus,僅以微弱差距落後於 Gemini 2.5 Pro。
目前,超長上下文在多個領域展現出了更多的實際應用價值。 例如在文檔分析領域,百萬級上下文視窗能夠處理超長合同、科研文獻等複雜文檔,提升資訊提取和理解的準確性; 在代碼生成領域,百萬級上下文視窗能夠理解並修復整個代碼庫中的問題,甚至生成完整的長篇代碼。
以文檔分析寫作領域為例,過去,“寫一篇 10000 字的長文,詳細分析 XX 議題”這種看似簡單的要求,實際上有一些大模型做不到,而現在極有可能實現。
M1 模型上下文能力的提升,得益於 MiniMax 獨創了 Lightning Attention(閃電注意力)神經網路架構,以及全新的強化學習演算法 CISPO(Clipped IS-weight Policy Optimization)。
當前,主流大語言模型的核心架構均以 Transfolmer 架構為基礎框架。 然而,傳統 Transformer 架構在處理長序列時存在明顯弊端,其注意力機制的計算量會隨序列長度呈平方級增長,進而導致顯存佔用和計算成本急劇上升。
而 MiniMax 一直對非傳統 Transformer 路線十分感興趣,動作積極,並且實踐了“非主流”的線性注意力機制。
雙重創新,RL 訓練成本降至 53 萬美金
MiniMax-M1 和 MiniMax-Text-01 系列,都是基於閃電注意力機制開發的。
其中,MiniMax-M1 中每 7 個帶有閃電注意力的 Transformer 模組後會跟一個帶有 softmax 注意力的 Transformer 模組。 這種設計理論上可以將推理長度高效擴展到數十萬個,同時大幅降低成本。
從圖中可以看到,和 DeepSeek R1 相比,M1 在 64 個 token 的生成長度下,消耗的 FLOP 不到 50%,在 100K 個 token 長度下消耗 FLOP 約為 25%。
閃電注意力機制實則是線性注意力機制變體的 I/O 感知實現。
具體來看,傳統 Transformer 的 Softmax 注意力機制需要為輸入序列構建一個 N×N 的全連接矩陣,用以計算注意力權重,當處理超長序列時,這個矩陣會變得極其龐大,導致計算和存儲成本急劇增加。
閃電注意力機制等線性注意力機制採用「分塊計算」策略,將長序列分割成多個小塊,先在小塊內部計算詞與詞之間的關係,再通過塊間資訊傳遞整合全域語義,這種方法顯著降低了計算複雜度,同時仍能捕捉到長距離的語義關聯。
這種模式下,計算複雜度不再是隨著序列長度的增加指數級上升,而是變成了和序列長度成線性關係,也就是說,序列變長時,計算量也只按比例增加,大大提高了處理效率。
它先確保了計算複雜度是線性的,在此基礎上,再結合輸入數據的稀疏性、結構等特性,以及輸出任務的具體需求,甚至還考慮了底層硬體的記憶體訪問效率,去對線性注意力的計算和實現方式進行設計或調整。 這樣做的目的,就是在保持線性複雜度的同時,讓模型在特定任務或數據上能獲得更優表現,比如運行速度更快、記憶體佔用更少,或者能生成更相關的注意力分佈,從而提升整體效果。
換句話說,這本身就是一種更精細化、更貼合實際應用場景的優化思路。
正是這種獨特的架構設計,讓採用它的 M1 模型在處理那些非常長的序列數據時表現特別出色,能夠在保證處理效果(性能)的同時,也兼顧了計算速度(效率)。
但由此帶來的問題是,高速推理會加速強化學習(RL)的縮放進程,讓模型生成的響應越來越長,變得冗餘。 而且,傳統混合架構模型所使用的 RL 演算法,在這種快速變化的環境下,很容易因為各種未知因素而變得不穩定,進而影響模型的整體表現和可靠性。
為此,MiniMax 用兩種方法來穩定提高 RL 的縮放效率。
首先是 RL 演演算法的創新。 M1 技術報告中提到,在零 RL 設置下的混合架構的初步實驗中,GRPO 演算法對訓練性能反而產生了不利影響,並且無法促進長 CoT 推理為的出現。
MiniMax 提出了一種新的強化學習演算法 CISPO。 CISPO 不直接裁剪 token,而是保留所有 token 的更新,修剪重要性採樣(importance sampling)權重來保持訓練的穩定性。
實驗顯示,在相同訓練步數下,CISPO 的性能優於 GRPO 和 DAPO,並且只用一半的訓練步數就能達到與 DAPO 相當的性能。
此外,MiniMax 還注意到,M1 的混合注意力機制的設計還會 RL 擴展的穩定性帶來挑戰。
例如,模型訓練架構的訓練內核和推理內核之間精度不匹配(如下圖左圖所示)。 這導致訓練內核學到的策略可能無法在推理階段被準確執行,導致實際執行的動作與預期策略存在偏差。 簡單來說,就像大腦(訓練內核)想好了最優方案,但手腳(推理內核)卻跟不上或執行不到位,自然難以取得好成績。
在一系列調整后,MiniMax-M1 將訓練概率和推理概率之間的相關性從 0.9 倍提升至 0.99 倍(如下圖右圖所示)。
上述一系列優化下,MiniMax 最終將 MiniMax-M1 整個強化訓練成本打下了一個數量級,只用 512 塊 H800,用時三周,租賃成本只有 53.74 萬美金。
從 Demo 到生產力,工具才是 Agent 的終極“外掛”
無論是長上下文窗口,還是強化學習訓練成本上的優勢,本質都是為上層 Agent 應用提供底層支撐,加速規模化落地。
但真正決定 Agent 應用在複雜場景中用得好不好,更多取決於其能否與外部系統無縫協同。 這也是為什麼越來越多的企業和開發者開始將 工具使用(Tool Use) 視作 Agent 最重要的能力。 MiniMax-M1 能在海內外引起廣泛討論的一部分原因,也來自於此。
在代理工具使用場景(TAU-bench)中,MiniMax-M1-40k 領跑所有開源權重模型,在 30 多輪長鏈路思考與工具調用任務中,展現出極高的穩定性。
TAU-bench 被視為評估 Agent 工具使用能力的“黃金標準”,其由頂尖 AI 研究機構聯合推出,通過對 Agent 在航空、零售兩個垂直領域的場景評測,衡量 Agent 在複雜現實任務中,與使用者和工具交互的能力。 對於開發者、企業甚至是研究機構而言,TAU-bench 的評測結果都具有重要的參考價值。
穩定是工具能力的基礎,易用性則決定了工具能否被廣泛應用。 這也是 MiniMax-M1 在工具調用方面,區別於傳統模型的關鍵。
在傳統方案中,開發者需要為每個 API 單獨設計 Prompt 範本、處理參數映射、調試上下文傳遞,這種方式不僅效率低,還嚴重依賴開發者個人經驗。 MiniMax-M1 支援開發者以簡單的 XML 格式工具結構描述工具功能,模型能夠自動理解工具的輸入輸出、參數約束,並生成符合要求的調用代碼。 開發者甚至不需要專門學習工具的使用方法,就能實現工具調用。
在實際的應用場景中,MiniMax-M1 在工具調用能力上的優勢得到了進一步放大。 在 MiniMax-M1 的 Hugging Face 主頁上,專門設置了一個“代碼遊樂場”,使用者可以通過這個互動式環境,快速且直觀地感受 MiniMax-M1 工具調用能力對開發效率的提升。
比如,MiniMax-M1 內置了很多 UI 元件。 通過輸入提示詞,MiniMax-M1 能快速生成 3D 翻轉卡片動畫,也能立即創建一個具有粒子動畫背景的 HTML 頁面。
MiniMax-M1 還支援互動式應用程式。 以打字速度測試工具為例,MiniMax-M1 能夠快速生成包含即時打字速度(以每分鐘字數 WPM 計算)的 Web 應用,整個過程不需要任何外掛程式,也不需要做額外的設置。
此外,MiniMax-M1 還支援工具 & 編輯器、遊戲 & 可視化能力。 比如,輸入提示詞:「創建一個迷宮產生器和路徑尋找可視化工具,隨機生成迷宮並用 A* 演算法逐步可視化解法。 使用 canvas 和動畫呈現,視覺效果炫酷。 “MiniMax-M1 快速就能做出一個迷宮小遊戲,可玩性也相當不錯。
當 Agent 規模化應用已成定局,MiniMax-M1 開源更大的意義在於,給行業提供了一個新思路:RAG 等“外掛”或許能短期內提高 Agent 的落地效果,但長期來看,基座模型本身的持續進化,或許才是解決 Agent 落地難題的“第一性原理”。
MiniMax 圍繞模型升級的重點之一,始終是上下文處理能力,反覆運算速度堪稱迅猛。 年初,MiniMax 發佈並開源 MiniMax-01 系列模型,其中,MiniMax-Text-01 模型能夠高效處理多達 400 萬 token 的上下文,這一數據是 GPT-4o 的 32 倍,更是 Claude-3.5-Sonnet 的 20 倍。 如今 MiniMax-M1 支援 100 萬上下文輸入,不難發現,MiniMax 在技術路線與戰略方向上,始終保持著連貫性與堅定性。
這是因為在 Agent 系統里,無論是單 Agent 實現長期記憶,還是多 Agent 達成協同通信,都高度依賴強大的上下文處理能力。 另外,隨著 AI Agent 逐漸進入企業生產環境,來自各領域大量的上下文資訊正在輸入,不確定性很高,支援的上下文長度越大,對業務的相容性越好。
與市面上的基礎模型廠商不同,MiniMax 對技術的考量,是以業務為中心的,“技術摸高”是 MiniMax 的重要任務,但不是唯一任務 。 而隨著企業對 AI 的需求越來越貼合業務實際情況,MiniMax 這樣的廠商,無疑增強了企業對 AI 的信心。 在本次 MiniMax-M1 開源後,我們完全可以期待 2025 下半年 AI 市場的增長曲線,將因此抵達新的高峰。
本文來自微信公眾號 “InfoQ”(ID:infoqchina),作者:楊楠、凌敏,36 氪經授權發佈。