這是用戶在 2025-7-4 23:51 為 https://36kr.com/p/3364112069871367 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?

預訓練通往 AGI 之路已死? 楊立昆揭示了 LLM 無法跨越的認知鴻溝

36氪的朋友們·2025 年 07 月 04 日 14:42
“預訓練 Scaling 神話”時代迎來終局

多年來,人工智慧領域的三巨頭之一、Meta 首席 AI 科學家楊立昆(Yann LeCun)一直對主流大型語言模型(LLM)背後技術路線持懷疑態度。

楊立昆表示:自回歸模型爛透了

他認為,當前主流的自回歸模型, 其核心任務是通過預測下一個詞來生成文本,這種模式在本質上無法孕育出真正的智慧——無論模型規模如何擴大,這種機制都無法實現真正的理解、推理或類人智慧。

然而,他的觀點長期被視為學術路線的“派系之爭”,因其缺乏直接的實證支撐,甚至被質疑是為其主導的“世界模型”研究爭取資源。

就在本月,隨著 JEPA 2 論文的發佈,它出色的效果總算為楊立昆扳回了一局。

而一篇由他共同署名的重量級新研究《從 toekn 到思想:LLM 與人類如何在壓縮與意義之間權衡》(From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning),也終於為他長期的批判找到了堅實的理論證據。

論文來源:[2505.17117] From Tokens to Thoughts: How LLMs and Humans How Trade Compression for Meaning

這項研究表明,儘管大型語言模型遠非只會模仿的「隨機鸚鵡」。,但它們理解世界的方式與人類存在著深刻的、或許是根本性的不同 。

更關鍵的是, 這種差異可能並非僅靠擴大模型規模和數據量的「縮放定律」(Scaling Law)就能彌合,它觸及了當前人工智慧範式的底層基礎 。

沿著 LLM 這條路走,AGI 可能真的做不到。

造一把衡量人類和 LLM 思想區別的尺子

那麼,研究者們是如何將一個近乎哲學層面的問題——“機器的理解與人類的理解有何不同? “——轉化為一個可以被測量、被量化的科學問題的呢?

他們沒有直接去定義“理解”這個模糊的詞,而是另闢蹊徑,選擇去測量“理解”背後的信息組織策略。

因此,他們設計了一個工具,可以作為“認知效率計分器”去衡量不同智慧間的認知效率。

這個計分器的任務是評估任何一個智慧系統(無論是人類大腦還是 AI)在組織資訊時的“工作品質”。 高品質的工作需要在資訊的極致壓縮 (Complexity)和意義的忠實保留 (Distortion)兩個相互衝突的目標之間取得完美平衡:

這就像整理一個龐大的圖書館,你希望分類標籤(比如“科幻”、“歷史” )盡可能少而精,讓整個系統一目了然。 一個高度壓縮的系統,意味著你用很少的資訊就能把握全域,它的“複雜度成本”很低。

但在追求簡潔的同時,你又不希望丟失太多細節。 比如,你不能因為「鯨魚」和「金槍魚」都生活在水裡,就粗暴地把它們塞進同一個「魚類」的箱子裡而忽略它們哺乳動物和魚類的本質區別。 任何分類都會造成原始資訊的“失真”,而“失真度成本”衡量的就是這種意義上的損失。

這個計分器的最終得分,我們稱之為 L,就是“複雜度成本”與“失真度成本”的總和。

一個完美的系統,它的 L 分數應該盡可能低,代表它用最經濟的方式,最大程度地保留了事物的原意。

LLM 和人腦,在理解上有本質不同

武裝上這把既能測量巨集觀系統複雜度,又能探查微觀類別純淨度的強大“尺子”後,研究者們一共設計了三個實驗,去來測量人腦和 LLM 之間的差距了。

他們選取了多個業界知名的模型家族,包括六個 Llama 系列模型(參數從 10 億到 700 億),五個 Gemma 系列模型(參數從 20 億到 270 億),十三個 Qwen(通義千問)系列模型(參數從 5 億到 720 億),四個 Phi 系列模型 ,以及一個 70 億參數的 Mistral 模型來做這一試驗。

第一個實驗結論:模型能形成抽象的「類」概念

第一個實驗,是從巨集觀上看 LLM 自發形成的概念類別,在整體結構上與人類的分類習慣是否相似。

他們讓一系列 LLM 處理認知心理學實驗中使用的經典詞彙,並將它們的詞嵌入進行聚類,然後將結果與人類的分類進行比對。

結果顯示出了驚人的一致性。 無論是大模型還是小模型,它們大體上都能正確地將“水果”、“傢俱”、“交通工具”等概念的成員識別並聚合在一起,其聚類結果與人類的判斷非常接近,都顯著高於隨機水準。 這證明瞭 LLM 並非在胡言亂語,它們確實從海量的文本數據中學習到了深刻的語義關聯。 這一幕,似乎預示著 AI 正穩步地向人類智慧靠攏。

此圖現實了 LLM 詞聚類與人類聚類的相似度,大部分都超越了隨機分佈。

其中 Bert 表現最近似人類。

第二個實驗結論:類別之下,他們就分不清楚了

表面的相似並不能說明一切。

研究者深入到每個類別的內部,問題開始浮現。 第二個問題是:LLM 能理解類別內部的精細語義結構,比如「典型性」嗎?

對人類而言,一個類別是有“重心”的。 “麻雀”顯然是比“鴕鳥”或“企鵝”更典型的“鳥” 。 這種判斷源於我們豐富的、多模態的現實經驗——我們知道鳥通常會飛、體型不大、會鳴叫。 但 LLM 有這種「感覺」嗎?

所有概念都在一塊,分不開層級

答案是否定的。

研究發現,LLM 的內部表徵雖然能將麻雀和企鵝聚在一起,但它無法穩定地反映出前者比後者更具代表性這一關鍵的語義細節 。 在 LLM 的“眼中”,一個類別內的所有成員更像是一群距離中心遠近不一、但地位相對平等的點,缺乏人類認知中那種強烈的“原型”或“範例”結構。

第三個實驗結論:LLM 和人腦,走的是不同的壓縮策略

現象上的差異,必然源於底層邏輯的不同。 第三個實驗是為了回答,兩種智慧在面對「壓縮 vs.意義」這個根本性權衡時,各自的策略是什麼?

此時,「效率計分器」(L) 終於發揮了其最終的裁決作用。 研究者將人類的分類數據和所有 LLM 的聚類結果,都代入了這個統一的評分框架。

結果相當清晰。 所有的 LLM,從最小的到最大的,無一例外地都獲得了極低的 L 分數,它們是天生的“效率之王”。

它們的內在運作機制,似乎被一種無形的力量驅動著,去尋找數據中最優的統計壓縮方案,以最小的複雜度成本和失真度成本來組織資訊。 而人類的認知數據,則得到了顯著更高的 L 分數,在這個純粹的統計效率競賽中“慘敗”。

左圖:人類的信息熵普遍高於 LLM; 右圖:人類的 L 值得分遠低於 LLM,壓縮度不高

這正是整篇論文最深刻的洞見:人類認知系統中的這種“低效”,並非缺陷,而是其強大功能的體現。 我們的大腦並非為了成為一個完美的壓縮軟體而進化。 它的首要任務是在複雜、動態、充滿不確定性的真實世界中生存和繁衍 。

為此,我們的概念系統必須是靈活、豐富、可塑的,能夠支援我們進行複雜的因果推理、功能判斷,並實現有效的社會溝通 。

這種為了“適應性”而保留的“冗餘”和“模糊性”,在純粹的統計計分器上,自然就表現為“低效”。

所以問題就在於,一個分不清企鵝和麻雀哪個更像鳥的智慧,就算高效,真的足夠理解世界嗎?

Scaling Law 失靈了?

你也許會問,Scaling Law 路線呢? 擴大參數量能否讓模型的壓縮也足夠豐富,能夠理解更複雜的語義結構,並且更像人了呢?

但論文的一個核心發現正是, 參數量不是決定這個根本性策略差異的決定性因素

在“與人類概念分類對齊”這個任務上(RQ1),並非模型越大就做得越好 。 研究明確指出,像 BERT-large 這樣相對較小(約 3.4 億參數)的編碼器模型,其表現經常與大得多的解碼器模型相當,甚至超過它們。

而在第二個實驗中,規模效應也不明顯:在衡量對齊度的圖表中,你可以看到性能點(AMI 分數)是分散的,並沒有隨著模型尺寸(從 5 億到 700 億參數)的增加而呈現出一條清晰的、持續上升的曲線 。 這表明,單純增加參數量並不能保證模型能更好地抓住人類概念的結構。

因此,規模效應(Scaling Law)在這裡完全失效了。

這完美地印證了楊立昆多年來的核心論點。

它表明,當前 LLM 的自回歸訓練範式,根本產生不了類人的,能理解世界的智慧。

LLM 和人類玩的遊戲規則完全不同。 一個是壓縮大師,一個是適應大師。

單純給 LLM 這頭「壓縮猛獸」餵更多的食物(增加參數量),只會讓它長得更大、更強壯,但並不會讓它進化成「適應性獵手」。。 物種的“基因”(即模型架構和訓練範式 )決定了它的基本生存策略。

LLM 被判死刑?

在詳盡地剖析了這項研究所揭示的人機智慧之間的深刻鴻溝之後,一個不可避免的問題浮現在我們面前:這是否意味著當前以 GPT 系列為代表的大型語言模型,其技術路線已被宣判「死刑」?

答案或許是否定的。

當下,其實已經有三條可能破除這個瓶頸的路徑了。 其中第一條,還成了業內的主流。

首先,最直接的路徑,我們可以稱之為“軟體層面”的精細調教:引入更豐富的獎勵信號。

這是目前業界投入最多、也最接近現實應用的改良方案。

它的核心思想是,既然自回歸模型本身是一台強大的、但缺乏價值觀的「統計引擎」,那麼我們是否可以通過一個足夠聰明的「導航系統」——即強化學習中的獎勵模型——來引導它的行為?

理論上,我們可以設計一套極其精密的獎勵機制,去獎勵那些能夠體現深刻思考的特質。 這實際上正是當前強化學習所採用的路徑。 當模型能夠識別並解釋概念的“典型性”時 ,當它能構建出清晰的因果推理鏈條時,當它能承認自己的知識局限並表達不確定性時,都給予其高額的“獎勵”。

然而,楊立昆的這個實驗所採用的模型都是非推理型模型。 因此獎勵信號豐富度是否能真正改變其「統計壓縮」的內在表徵策略 ,當下至少還是未知的。

至少從當前強化學習所得到的進展來看,這個補丁還是很有效果的。

其次,是一條更激進、更具革命性的「硬體層面」的架構革新

即從根本上改變自回歸模型的生成粒度。 既然「逐字生成」的線性模式存在著規劃短視的天然缺陷,那麼我們是否可以強迫模型在「開口說話」之前,先進行一番「深思熟慮」?

一個絕佳的例證,正是 Meta 在今年早些提出的“大型概念模型”(Large Concept Models, LCMs)框架。 這個框架的設計,正是從預測下一個“詞”(Token),躍升到了預測下一個“概念”(Concept)。

這個想法的誘人之處在於,它不再滿足於局部的、鏈式的語言流暢性,而是從架構上要求模型進行更高層次的整體規劃。 但想要達成它,我們得把模型做成一個雙系統。

LCMs 中的“概念規劃模型”(Production Model),扮演了“系統二”(規劃器/思考者)的角色。 這個模組是整個系統的“大腦中樞”,負責進行緩慢、有意識的深度思考。

它不直接生成遣詞造句,而是先在一個抽象的“概念空間”中,深思熟慮地規劃出一系列代表著思想大綱和邏輯流程的“概念向量”(Concept Vectors)。

這一步,就相當於在進行邏輯規劃、構建因果鏈和設計巨集大敘事。

而 LCMs 中的「文本實現模型」(Realization Model),則完美地對應了「系統一」(執行器)。 它就像我們今天所熟知的、反應迅速、語言流暢的自回歸 LLM,是一個天賦異稟的“語言大師”。 它的任務,是接收來自“系統二”的清晰指令——也就是那一串“概念向量”——然後以極高的效率和語言天賦,將這些抽象的計劃“翻譯”和“潤色”成詳盡、連貫、自然的語言文本。

這樣一個系統將不再僅僅為了「統計壓縮」這個單一目標而存在。 它的整個設計,更可能實現人類認知所擁有的那一整套“更廣泛的功能性需求”。

最後一條路徑,就是楊立昆自己的世界模型之路。 它讓 LLM 走出純粹的文本“洞穴”,去擁抱一個由圖像、聲音和物理規律構成的、多姿多彩的真實世界。

這條路徑的核心,是兩大支柱:多模態地基(Multi-modal Grounding)與世界模型(World Models)。

當前 LLM 的知識是「懸浮」 的。 論文的研究結果表明,LLM 之所以難以捕捉到概念的“典型性”等精細語義,是因為它們的理解缺乏一個堅實的“錨點”。

人類之所以知道「麻雀」比「企鵝」更像一隻「標準鳥」,是因為我們關於「鳥」的概念,是由「豐富的、多方面的標準(如感知屬性、功能角色)」所共同定義的。 因此, 解決方案的第一步,就是為這個“大腦”接上“感官”——也就是多模態學習。

第二步,世界模型的優化目標則與 LLM 完全不同。

它的首要任務不是“如何最有效地壓縮資訊”,而是“如何最準確地預測真實世界的下一步”。 為了準確預測一個玻璃杯掉在地上會碎,而不是會彈起來,模型必須在其內部表徵中保留關於“玻璃”的物理屬性(易碎性)和“地面”的物理屬性(堅硬)的豐富資訊。

這些在純文本壓縮任務中可能被視為「雜訊」的細節,在預測現實世界的任務中,卻是至關重要的核心信號。

因此,這種對物理世界預測準確性的追求,會從根本上迫使模型去構建一種更豐富、更細緻、更接近物理現實的內部表徵,從而自然地擺脫了為追求簡潔而犧牲意義的“過度壓縮”陷阱。

但不論是多模態,還是楊立昆自己的 JEPA 模型(沒有語言模組,但也可以外接)都沒被放在這個系統下去觀察。 我們依然不知道他們是否真的能改變模型的根本壓縮傾向。

所以,即使存在這篇論文中的問題,LLM 也並沒有被判處極刑。

但那個單一、龐大、試圖包攬一切的「預訓練 Scaling 神話」時代,可能正在迎來它的終局。

因此,未來的旅程,不再是簡單地為這個聰明的「缸中之腦」提供更多、更複雜的文本食糧,而是要引導它慢慢長出眼睛、耳朵和雙手,讓它在與真實世界的互動中,在對物理規律和因果關係的親身體驗中 ,真正理解“從符號到思想”的深刻含義,最終從一個強大的工具,蛻變為一個能與我們共情、共存、共同創造的夥伴。

本文來自微信公眾號 「騰訊科技」,作者:郝博陽,36 氪經授權發佈。

+1
35

好文章,需要你的鼓勵

參與評論
評論千萬條,友善第一條
后參與討論
提交評論0/1000
36氪
36氪

下一篇

你的驗證碼又升級了:虐完人類不過癮,現在要收拾 AI 了既有守護互聯網內容生態的用心,也不乏精明的商業算計

9小時前

36 氪 APP讓一部分人先看到未來
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业