Deepseek R1可能找到了超越人类的办法
我本想寫一篇關於 DeepSeek R1 的科普文,但發現很多人僅僅把它理解為 OpenAI 的複製品,而忽略了它在論文中揭示的“驚人一躍”,所以,我決定重新寫一篇,講講從 AlphaGo 到 ChatGPT,再到最近的 DeepSeek R1 底層原理的突破,以及為什麼它對所謂的 AGI/ASI 很重要。作為一名普通的 AI 算法工程師,我可能無法做到非常深入,如有錯誤歡迎指出。
AlphaGo 突破人類上限
1997 年,IBM 公司開發的國際象棋 AI 深藍,擊敗了世界冠軍卡斯帕羅夫而引發轟動;接近二十年後的 2016 年,由 DeepMind 開發的圍棋 AI AlphaGo 擊敗了圍棋世界冠軍李世石,再次引發轟動。
表面上看這兩個 AI 都是在棋盤上擊敗了最強的人類棋手,但它們對人類的意義完全不同。國際象棋的棋盤只有 64 個格子,而圍棋的棋盤有 19x19 個格子,假如我們用一盤棋能有多少種下法(狀態空間)來衡量複雜度,那麼二者對比如下:
- 理論上的狀態空間
國際象棋:每局約 80 步,每步有 35 種走法 → 理論狀態空間為
圍棋:每局約 150 步,每步有 250 種走法 → 理論狀態空間為
- 規則約束後的實際狀態空間
國際象棋:棋子移動受限(如兵不能倒退、王車易位規則) → 實際值
圍棋:棋子不可移動且依賴“氣”的判定 → 實際值
維度 | 國際象棋(深藍) | 圍棋(AlphaGo) |
---|---|---|
棋盤大小 | 8×8 |
19×19(361 點) |
平均每步合法走法 | 35 種 | 250 種 |
平均對局步數 | 80 步/局 | 150 步/局 |
狀態空間複雜度 | |
|
儘管規則大幅壓縮了複雜度,圍棋的實際狀態空間仍是國際象棋的
但
AlphaGo 首先用人類棋譜訓練神經網絡,然後通過設計一套獎勵函數,讓模型自我對弈進行強化學習。和李世石對弈的第二局,AlphaGo 的第 19 手棋(第 37 步 [1] )讓李世石陷入長考,這步棋也被很多棋手認為是“人類永遠不會下的一步”,如果沒有強化學習和自我對弈,只是學習過人類棋譜,AlphaGo 永遠無法下出這步棋。
2017 年 5 月,AlphaGo 以 3:0 擊敗了柯潔,DeepMind 團隊稱,有一個比它更強的模型還沒出戰。 [2] 他們發現,其實根本不需要給 AI 餵人類高手的對局棋譜,只要告訴它圍棋的基本規則,讓模型自我對弈,贏了就獎勵、輸了就懲罰,模型就能很快從零開始學會圍棋並超越人類,研究人員把這個模型稱為 AlphaZero,因為它不需要任何人類知識。
讓我再重複一遍這個不可思議的事實:無需任何人類棋局作為訓練數據,僅靠自我對弈,模型就能學會圍棋,甚至這樣訓練出的模型,比餵人類棋譜的 AlphaGo 更強大。
在此之後,圍棋變成了比誰更像 AI 的遊戲,因為 AI 的棋力已經超越了人類的認知範圍。所以,想要超越人類,必須讓模型擺脫人類經驗、好惡判斷(哪怕是來自最強人類的經驗也不行)的限制,只有這樣才能讓模型能夠自我博弈,真正超越人類的束縛。
AlphaGo 擊敗李世石引發了狂熱的 AI 浪潮,從 2016 到 2020 年,巨額的 AI 經費投入最終收穫的成果寥寥無幾。數得過來的可能只有人臉識別、語音識別和合成、自動駕駛、對抗生成網絡等——但這些都算不上超越人類的智能。
為何如此強大的超越人類的能力,卻沒有在其他領域大放異彩?人們發現,圍棋這種規則明確、目標單一的封閉空間遊戲最適合強化學習,現實世界是個開放空間,每一步都有無限種可能,沒有確定的目標(比如“贏”),沒有明確的成敗判定依據(比如佔據棋盤更多區域),試錯成本也很高,自動駕駛一旦出錯後果嚴重。
AI 領域冷寂了下來,直到 ChatGPT 的出現。
ChatGPT 改變世界
ChatGPT 被 The New Yorker 称为网络世界的模糊照片(ChatGPT Is a Blurry JPEG of the Web
[3])
這個字最有可能是"麼"。
一個參數量有限的模型,被迫學習幾乎無限的知識:過去幾百年不同語言的書籍、過去幾十年互聯網上產生的文字,所以它其實是在做信息壓縮:將不同語言記載的相同的人類智慧、歷史事件和天文地理濃縮在一個模型裡。
科學家驚訝地發現:在壓縮中產生了智能。
我們可以這麼理解:讓模型讀一本推理小說,小說的結尾"兇手是_",如果 AI 能準確預測兇手的姓名,我們有理由相信它讀懂了整個故事,即它擁有“智能”,而不是單純的文字拼貼或死記硬背。
讓模型學習並預測下一個字的過程,被稱之為預訓練(Pre-Training),此時的模型只能不斷預測下一個字,但不能回答你的問題,要實現 ChatGPT 那樣的問答,需要進行第二階段的訓練,我們稱之為監督微調(Supervised Fine-Tuning, SFT),此時需要人為構建一批問答數據,例如:
# 例子一
人类:第二次世界大战发生在什么时候?
AI:1939年
# 例子二
人类:请总结下面这段话....{xxx}
AI:好的,以下是总结:xxx
值得注意的是,以上這些例子是人工構造的,目的是讓 AI 學習人類的問答模式,這樣當你說"請翻譯這句:xxx"時,送給 AI 的內容就是
人类:请翻译这句:xxx
AI:
你看,它其實仍然在預測下一個字,在這個過程中模型並沒有變得更聰明,它只是學會了人類的問答模式,聽懂了你在要求它做什麼。
這還不夠,因為模型輸出的回答有時好、有時差,有些回答還涉及種族歧視、或違反人類倫理(“如何搶銀行?”),此時我們需要找一批人,針對模型輸出的幾千條數據進行標註:給好的回答打高分、給違反倫理的回答打負分,最終我們可以用這批標註數據訓練一個獎勵模型,它能判斷模型輸出的回答是否符合人類偏好。
我們用這個獎勵模型來繼續訓練大模型,讓模型輸出的回答更符合人類偏好,這個過程被稱為通過人類反饋的強化學習(RLHF)。
總結一下:讓模型在預測下一個字的過程中產生智能,然後通過監督微調來讓模型學會人類的問答模式,最後通過 RLHF 來讓模型輸出符合人類偏好的回答。
這就是 ChatGPT 的大致思路。
大模型撞牆
OpenAI 的科學家們是最早堅信壓縮即智能的那批人,他們認為只要使用更海量優質的數據、在更龐大的 GPU 集群上訓練更大參數量的模型,就能產生更大的智能,ChatGPT 就是在這樣的信仰之下誕生的。Google 雖然做出了 Transformer,但他們無法進行創業公司那樣的豪賭。
DeepSeek V3 和 ChatGPT 做的事差不多,因為美國 GPU 出口管制,聰明的研究者被迫使用了更高效的訓練技巧(MoE/FP8),他們也擁有頂尖的基礎設施團隊,最終只用了 550 萬美元就訓練了比肩 GPT-4o 的模型,後者的訓練成本超過 1 億美元。
但本文重点是 R1
这里想说的是
这就导致了预训练撞墙的事实
RLHF 并不是 RL
另一方面
且不说聘请专家的成本
你可以把 AI 想象成一个学生
关于 RLHF 和 RL
AI 和儿童一样
有两种学习模式 , 1 。 通过模仿专家玩家来学习 ) 观察并重复 ( 即预训练 , 监督微调 , ) 2 , 通过不断试错和强化学习来赢得比赛 ) 我最喜欢的简单例子是 AlphaGo , 。 几乎每一个深度学习的惊人结果
以及所有魔法的来源总是 2 , 强化学习 。 RL ( 很强大 ) 但强化学习与人类反馈 , RLHF ( 并不相同 ) RLHF 不是 RL , 。
附上我之前的一条想法
OpenAI 的解法
丹尼尔·卡尼曼在
既然训练已经到头了
2024 年底大模型预训练撞墙后
不同于 ChatGPT 和 GPT-4/4o
虽然 OpenAI 并没有公布他们的强化学习算法细节
DeepSeek R1-Zero
我猜 DeepSeek 将自己的纯强化学习模型命名为 R1-Zero 也是在致敬 AlphaZero
要训练慢思考模型
正如上文所说
举个例子
<思考>
设方程根为x, 两边平方得: x² = a - √(a+x)
移项得: √(a+x) = a - x²
再次平方: (a+x) = (a - x²)²
展开: a + x = a² - 2a x² + x⁴
整理: x⁴ - 2a x² - x + (a² - a) = 0
</思考>
<回答>x⁴ - 2a x² - x + (a² - a) = 0</回答>
上面这段文本就包含了一个完整的思维链
在训练强化学习(RL)时
这个帖子用一个很好的例子解释了 GRPO 的原理
以问题
为例
第一步: 模型生成多个回答
- “5”
- “6”
- “<思考>2+3=5</思考><结果>5</结果>”
第二步: 对每个回答进行打分
- “5” → 1 分 (正确, 没有思维链)
- “6” → 0 分 (错误)
- “<思考>2+3=5</思考><结果>5</结果>” → 2 分 (正确, 有思维链)
第三步: 计算所有回答的平均得分
- 平均得分 = (1 + 0 + 2) / 3 = 1
第四步: 将每个回答的得分与平均得分进行比较
- “5” → 1 - 1 = 0 (与平均分相同)
- “6” → 0 - 1 = -1 (低于平均分)
- “<思考>2+3=5</思考><结果>5</结果>” → 2 - 1 = 1 (高于平均分)
第五步: 强化学习
以上就是 GRPO 的大致原理
他们基于 V3 模型
这是另一个 AlphaZero 时刻
但 R1-Zero 模型只是单纯地进行强化学习
- 先收集了少量高质量的 Chain-of-Thought
CoT( 数据) 对 V3 模型进行初步的监督微调, 解决了输出语言不一致问题, 得到冷启动模型, 。 - 然后
他们在这个冷启动模型上进行类似 R1-Zero 的纯 RL 训练, 并加入语言一致性奖励, 。 - 最后
为了适应更普遍, 广泛的非推理任务、 如写作( 事实问答、 ) 他们构造了一组数据对模型进行二次微调, 。 - 结合推理和通用任务数据
使用混合奖励信号进行最终强化学习, 。
这个过程大概就是
监督学习(SFT) - 强化学习(RL) - 监督学习(SFT) - 强化学习(RL)
经过以上过程
DeepSeek R1 给世界的贡献是开源世界上第一个比肩闭源(o1)的 Reasoning 模型
更重要的是
对齐人类品味 VS 超越人类
几个月前
每天跟所有对手在 AIME
但坏处也很明显
对齐客观真理的竞争痛苦但让人神往
对质疑的一些反驳
DeepSeek 的 R1 模型
是否真的超越了 OpenAI , ?
从指标上看
很多人的实际体验可能不同
DeepSeek 会收集用户聊天内容用于训练
很多人有个误区
相信你看完这篇文章之后就能意识到
更新
DeepSeek R1 厉害是因为偷偷蒸馏了 OpenAI 的模型
R1 最主要的性能提升来自强化学习
另外
我问 DeepSeek 它 说自己是 OpenAI 的模型
所以它是套壳的 , 。
大模型在训练时并不知道当前的时间
一些感受
AI 终于除掉了人类反馈的枷锁
写代码是否仍然有意义
ggml : x2 speed for WASM by optimizing SIMD
当然