這是用戶在 2025-7-1 18:35 為 https://36kr.com/p/3332016893913600 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?

新「SOTA」推理模型避戰 Qwen 和 R1? 歐版 OpenAI 被噴麻了

量子位·2025 年 06 月 11 日 20:05
Mistral AI 首款推理模型來了

“歐洲的 OpenAI”Mistral AI 終於發佈了首款推理模型——Magistral

然而再一次遭到網友質疑:怎麼又不跟最新版 Qwen 和 DeepSeek R1 0528 對比?

(此前該公司發佈 Ministral 3B/8B 時,聲稱“始終優於同行”,卻沒有對比 Qwen2.5)

在該模型發佈的前幾個小時,Mistral AI 的 CEO Arthur Mensch 在接受爐邊訪談時聲稱即將發佈的 Magistral 能夠與其他所有競爭對手相抗衡。

在官方展示的基準測試結果中,DeepSeek-R1 的數據確實不是最新的(在 AIME-25 數學測試中,DeepSeek-R1-0528 的準確率已經從舊版的 70%提升至 87.5%),並且比較行列里完全不見 Qwen 的身影。

不過,與同公司初期模型 Mistral Medium 3 相比,該框架在 AIME-24 上的準確率提升了 50%。

此次 Magistral 發佈了兩種版本:

Magistral Small——24B 參數的開源權重版本,可在 Apache 2.0 許可下自行部署。

Magistral Medium——更強大的、面向企業的版本,在 Amazon SageMaker 上提供。

專為透明推理而設計

在 Magistral 發佈之前,Mistral AI 的 CEO Arthur Mensch 在訪談中提到:

“從歷史上看,我們看到美國的模型用英語進行推理,中國的模型更擅長用中文進行推理。”

於是,這次 Magistral 的一個亮點就是支援多語言推理 ,尤其是解決了主流模型用歐洲語言的推理效果不如本土語言的缺陷。

下面的例子展示了在 Le Chat 中,使用 Magistral Medium 的阿拉伯文提示和回應。

與通用模型不同的是,Magistral 針對多步邏輯進行了微調,提升了可解釋性,並在用戶的語言中提供了可追溯的思考過程 ,能夠實現大規模即時推理。

下面的例子展示了重力、摩擦和碰撞的單次物理類比,在預覽中使用的是 Magistral Medium。

就好像 Magistral 不是黑箱預言家,而是一個能陪你「擺事實、講道理」的智能夥伴。

並且,在 Le Chat 中,通過 Flash Answers,Magistral Medium 的 token 輸送量比大多數競爭對手快 10 倍。

這就能夠實現大規模的即時推理和用戶反饋。

作為 Mistral 推出的首個基於純強化學習(RL)訓練的推理大模型,Magistral 採用改進的 Group Relative Policy Optimization(GRPO)演算法。

直接通過 RL 訓練,不依賴任何現有推理模型的蒸餾數據(如 DeepSeek-R1 需 SFT 預熱)。

通過消除 KL 散度懲罰、動態調整探索閾值和基於組歸一化的優勢計算,在 AIME-24 數學基準上實現從 26.8%到 73.6%的準確率躍升。

首創異步分散式訓練架構,通過 Generators 持續生成、Trainers 異步更新的設計,配合動態批處理優化,實現高效的大規模 RL 訓練。

還反直覺地發現純文本 RL 訓練可提升多模態性能(如 MMMU-Pro-Vision 提升 12%),並驗證 RL 對小模型同樣有效(24B 的 Magistral Small 在 AIME-24 準確率達 70.7%)。

這些創新使 Magistral 在無需預訓練蒸餾的情況下,以純 RL 方式為 LLM 的強化學習訓練提供了新範式。

還有一件事

官方沒有給出 Magistral 與最新版 Qwen 和 R1 的對比,網友來代勞了。

從結果可以看出,Qwen 4B 與該模型相近,小型的 30B MoE 效果更好,R1 最新版就更不用說了(doge

並且,由於「歐洲的 OpenAI」越來越不 Open,Stability AI 前 CEO 建議 Mistral AI 應該爭取真正的開源來佔據開源的領導地位。

參考連結:

[1]https://mistral.ai/news/magistral

[2]https://x.com/dylan522p/status/1932563462963507589

[3]https://x.com/arthurmensch/status/1932451932406415531

本文來自微信公眾號 “量子位”,作者:關注前沿科技,36 氪經授權發佈。

+1
53

好文章,需要你的鼓勵

參與評論
評論千萬條,友善第一條
后參與討論
提交評論0/1000
36氪
36氪

下一篇

淘寶跑步進入三維世界 XR 電商有了雛形?

2025-06-11

36 氪 APP讓一部分人先看到未來
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业