這是用戶在 2025-7-1 18:51 為 https://36kr.com/p/3339112241034753 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?

爆肝一篇博客拿下 OpenAI Offer,Muon 作者怒揭:幾乎所有優化器的論文都是“假的”

CSDN·2025 年 06 月 16 日 20:41
Keller Jordan:「寫出一篇數據漂亮、圖表華麗的優化器論文」與“這個優化器實際有沒有用”之間有什麼必然聯繫。

不是頂會論文,也沒有發在 arXiv 上,甚至連“正式發表”都稱不上——但就是這樣的一篇純博客文章,卻讓一名研究員成功拿到了 OpenAI 的 Offer,甚至據說這篇博客的技術還被用於 GPT-5 的訓練工作。

聽起來像是一個段子,但這位名叫 Keller Jordan 的研究員卻真實地做到了。

Keller Jordan 的這篇博客叫做 《Muon: An optimizer for hidden layers in neural networks》(https://kellerjordan.github.io/posts/muon/),其中提出了一種名為 Muon 的新優化器。

簡單來看,這篇文章既不是論文格式,也沒有同行評審,卻因實測效果出色而意外走紅。 更出人意料的是,它還成了他叩開 OpenAI 大門的敲門磚。

這一消息最早由 Keller Jordan 的合作者、AI 雲平臺初創公司 Hyperbolic Labs 的聯合創始人 Yuchen Jin 在 X 上公開。

Yuchen Jin 寫道:

「很多博士(包括曾經的我)常常陷入一個誤區:認為在頂級會議上發表論文就是最終目標。

但“發表”並不等於“影響力”。

Muon 只是篇博客文章,卻幫 Keller 拿到了 OpenAI 的 offer——現在他可能正在用它訓練 GPT-5。

我很感激他把我列為第二作者。 我只是用 NanoGPT 跑了些實驗,測試 Muon 在更大語言模型上的可擴充性,結果它徹底擊敗了 AdamW(曾經的優化器之王)!

這事教會我:無論是做研究,還是生活,追求的應該是影響力,而不是光鮮的頭銜。」

進群后,您將有機會得到:· 最新、最值得關注的 AI 產品資訊及大咖洞見· 獨家視頻及文章解讀 AGI 時代的產品方法論及實戰經驗· 不定期贈送 AI 產品乾貨資料和秘笈

頂會論文≠有影響力

Yuchen Jin 的這番話一出,激起了不少的討論。

畢竟,在學術圈,頂會論文幾乎是衡量一個人研究水準和職業潛力的“硬通貨”——特別是對博士來說,能否進入一流實驗室、申請教職、爭取經費,其背後有沒有在 NeurIPS、ICLR、CVPR、ACL 這類會議上掛名還是很重要的。

而 Keller 卻用一篇「非正式」的博客文章,直接實現彎道超車,頗有些顛覆常規的意味。

其實,Keller Jordan 早在今年 2 月就公開表達過自己對這一事的態度 。 他在 X 上寫道,自己之所以沒有為 Muon 寫一篇正式的 arXiv 論文,是因為他壓根不相信 ,“寫出一篇數據漂亮、圖表華麗的優化器論文”與“這個優化器實際有沒有用”之間有什麼必然聯繫。

他更看重真實訓練中的表現,“我只相信實測跑分”。

在他看來, 與其把大量時間投入在格式要求繁瑣、評審週期冗長的論文撰寫上,不如專注於實踐落地與真實效果 。 畢竟,一個想法從成形到論文發表,往往需要耗費數月甚至更久的時間,而當它終於面世時,極有可能會“過時”,而即使發佈了又可能會被淹沒在頂會上一波又一波的投稿浪潮中,很少有人真正看、也很少有人真的用。

時下,在 AI 加快各領域反覆運算速度之際,這種觀點並非罕見。

前谷歌研究員 Hieu Pham 對此事評論稱:

“曾幾何時,'發表論文'就等於'產生影響'。 ResNet、Seq2Seq、Adam、Attention、Transformers、MoE…… 這些經典成果都是以論文形式出現的。 但真正的問題,是我們沒有意識到這個時代已經過去了。 我自己也曾犯過類似的錯誤。 好在,現在我們還有機會重新選擇。 ”

他補充道,就優化器而言,「行業已經有成千上萬篇關於優化器的論文發表了,但真正推動 SOTA(最優性能)前進的,也就只有一次—— 從 Adam 到 AdamW。 其他所謂的進步,基本都是這兩個的改進實現,比如 FSDP。 因此,我們真的應該停止再寫這類論文了。 也不必引用 AdamW,大家都知道它是哪裡來的。 ”

同是博士畢業的 Yuchen Jin 也感慨學術生態的局限:「 這就是學術界令人唏噓的地方。 我曾有一位實驗室同伴,沒能在任何頂級的計算機系統會議上發表論文,這導致他很難拿到名校教職。 但最終,他成了谷歌的副總裁。 ”

非常規的「硬核學霸」

如今,Keller Jordan 的經歷也給人們帶來新的啟發:原來,不寫論文,也照樣能闖進一流的頂尖實驗室。

隨著 Muon 受到越來越多研究者的關注,就在今日, Keller 繼續重申自己的觀點——「已經有上百篇關於優化器的論文發表了,但所謂的最優性能(SOTA)也就提升了幾次而已。 所以我們可以得出一個結論:幾乎所有優化器的論文都是「假的」。 如果你也打算再寫一篇這樣的「假優化器」論文,拜託別引用 Muon。 我不需要你的引用。」

這番言論雖然犀利,卻也反映出 Keller Jordan 對“實際效果大於學術裝飾”的堅持,以及他鮮明的個性。

打開 Keller 的履歷,他也的確是個不折不扣的「硬核學霸」。。

從領英資料來看,Keller 曾就讀於加州大學聖克魯斯分校,主攻機器學習、數據科學等方向。 而後在 UC 伯克利,主修作業系統、計算安全。 而後於 2020 年以 3.94 的高績點(滿分 4)獲得美國加州大學聖迭戈分校數學與計算機科學雙學位。

畢業后,他進入 Hive 公司,擔任機器學習工程師,隨後又作為訪問研究員(Visiting Researcher)加入維也納複雜科學研究中心(Complexity Science Hub Vienna),繼續深耕 AI 實踐。

到了 2024 年 12 月,也就是發布 Muon 不久之後,Keller 成功入職 OpenAI,以一種幾乎“逆學術常規”的方式,打破了人們對進入頂尖 AI 實驗室的固有認知。

那麼問題來了:他那篇非正式的博客文章,到底有何魔力? 為什麼沒有頂會背書、沒有論文格式,卻能引發如此關注?

接下來,我們就來一起看看 Muon 的真實效果與特性。

對比其他優化器,Muon 有何吸引之處?

Muon 是一個專門為神經網路隱藏層設計的優化器。 它目前刷新了 NanoGPT 和 CIFAR-10 等熱門任務的訓練速度記錄。

首先從實測上來看,Muon 目前已經取得了非常不錯的成績:

在 CIFAR-10 上,從頭訓練到 94% 準確率的時間,從 3.3 A100 秒縮短到 2.6 A100 秒。

在 NanoGPT 的「精煉網頁(FineWeb)」任務中,把驗證損失達到 3.28 的速度提升了 1.35 倍。

在參數規模擴展到 774M 和 1.5B 時,訓練速度依然保持優勢。

用 Muon 訓練一個 15 億參數的 transformer,在 HellaSwag 任務中達到了 GPT-2 XL 的水準,只用了 10 小時(8 張 H100 組成的 GPU 集群)。 而使用 AdamW 則需要 13.3 小時才能達到相同水準。

下圖展示了在 NanoGPT 任務中,Muon 與其他優化器在樣本效率和實際訓練時間上的對比表現:

圖 1 按樣本效率比較優化器

圖 2 按掛鐘時間比較優化器

以下是 Muon 和 AdamW 在訓練 15 億參數語言模型時的對比:

圖 3 Muon 與 AdamW 在 15 億參數短時間訓練中的對比

從設計上來看,Muon 的核心原理是——先用帶動量的 SGD(SGD-momentum)生成更新,再對每個更新矩陣進行一次 Newton-Schulz(NS)反覆運算處理,最後才將其應用到模型參數上。

Newton-Schulz 反覆運算的作用是對更新矩陣進行近似正交化,也就是說,它會執行如下操作:

換句話說,NS 反覆運算的實際效果是:把原本由 SGD-momentum 得出的更新矩陣,替換成與之最接近的“半正交矩陣”。

感興趣的小夥伴也可以通過 GitHub 位址快速找到 Muon 的 PyTorch 實現:https://github.com/KellerJordan/Muon

寫在最後

Keller 的經歷並不是在否定學術的價值,而是在提醒我們:在 AI 快速演進的當下,影響力的來源正在悄然改變。

一篇實測效果出色的博客文章,可能比一篇格式完美卻難落地的論文更具說服力。

這也讓我們聯想到 DeepSeek,這支隊伍同樣是走出了一條「技術效果優先」的成名路徑:沒有高調預熱,沒有複雜包裝,靠著實打實的性能和穩定表現,在激烈的大模型競賽中殺出重圍,迅速贏得社區認可。

對當下的 AI 研究者來說,也許是時候重新思考:什麼才是真正值得投入時間的事? 是一篇「看起來很強」的論文,還是一個「跑得足夠快」的模型? Keller 和 Muon 的爆紅,或許只是這一轉變的開始。

參考:

Muon 博客原文:https://kellerjordan.github.io/posts/muon/

https://x.com/Yuchenj_UW/status/1934291648542126580

https://x.com/hyhieu226/status/1934290217516793947

https://x.com/kellerjordan0/status/1934138033240146313

本文來自微信公眾號 “CSDN”,整理:屠敏 ,36 氪經授權發佈。

+1
15

好文章,需要你的鼓勵

參與評論
評論千萬條,友善第一條
后參與討論
提交評論0/1000
36氪
36氪

下一篇

跨境電商新勢力,尋找“新大陸”關稅不確定下的“新抉擇”

2025-06-16

36 氪 APP讓一部分人先看到未來
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业