蘋果被矽谷 AI 圈圍毆了

智東西·2025 年 06 月 21 日 17：13

大模型評估體系崩塌？蘋果之外，UC 伯克利、Salesforce 連環論文狙擊。

智東西 6 月 21 日報導，自上周蘋果發表一篇論文，質疑大模型的思考能力，並論證大模型在複雜難題上“準確率崩潰”后，不少產業人士對其進行了圍攻。（《蘋果 AI“暴論”震動 AI 圈！ DeepSeek、Claude 等熱門大模型只是死記的模式機器？》）

近日，紐約大學名譽教授、《代數思維》和《深度學習正在遭遇瓶頸》的作者加里·馬庫斯（Gary Marcus）發文總結了反駁蘋果論點的 7 個觀點，包括“人類也無法做到真推理”、“實驗例子設計存在邏輯漏洞”、“推理內容超出 token 限制導致結果失真”、“一作是實習生”等，並對此進行了一一駁斥，證明這些觀點缺乏說服力。

博客位址：

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple

馬庫斯還援引全球 SaaS 龍頭 Salesforce 於 5 月 24 日發佈的一篇論文，擁護蘋果的觀點。這篇論文提到，在可能需要推理和演算法精度的「多輪」條件下，即便是 Gemini-2.5-Pro 這樣的頂級模型在測試中性能僅為 35%。

論文位址：

https://arxiv.org/abs/2505.18878

此外，加州大學伯利克里分校於6月9日發表的一篇論文展示了視覺語言模型的脆弱性：「視覺語言模型的表現明顯比其視覺編碼器差，性能會下降到接近偶然水準。 “這也被認為是蘋果”大模型崩潰論“的有力論證。

論文位址：

https://www.arxiv.org/abs/2506.08008

值得一提的是，參與這場 AI 論辯的除了人類還有 AI 作者。此前 6 月 10 日，大模型 Claude 被放在 arXiv 論文的一作，與一名人類作者聯合“發文”質疑蘋果的實驗設計有問題，強調所謂的“推理崩潰”其實只是 token 限制導致。

論文位址：

https://arxiv.org/abs/2506.09250

01.

大模型 Claude 被放論文一作

駁斥蘋果的“AI 崩潰論”

蘋果剛剛發佈一篇論文質疑大型推理模型是“假思考”，就有大模型“本模”跳出來反駁了。

6 月 10 日，Anthropic 旗下大模型 Claude 被一位名為 Lawsen 的人類作者放在論文一作，在 arXiv 平臺上“發表”了一篇題為《思維的幻覺的幻覺（The Illusion of the Illusion of Thinking）》的論文。

蘋果此前的論文報告大型推理模型在超過特定複雜度閾值的規劃難題上會表現出“準確率崩潰”，Claude 的這篇論文則試圖證明，他們發現這主要反映了實驗設計的局限性，而非根本性的推理失敗。

這篇論文主要攻擊了蘋果 AI 論文中的河內塔實驗。河內塔遊戲是一種經典的遊戲，它有三個柱子和多個圓盤，玩家需要將左側柱子上的所有圓盤移動到右側柱子上，並且不能將較大的圓盤堆疊在較小的圓盤上。

論文的分析揭示了三個關鍵問題：1、河內塔實驗在報告的失敗點系統性地超出了模型輸出 token 的限制，而模型在其輸出中明確承認了這些限制; 2、作者的自動評估框架未能區分推理失敗和實際約束，導致模型能力分類錯誤; 3、最令人擔憂的是，他們的“過河”基準測試包含了由於船隻容量不足導致 N>5 在數學上不可能出現的實例，但模型卻因未能解決這些無法解決的問題而被評為失敗。

當他們控制這些實驗結果時，通過請求生成函數而不是詳盡的移動清單，跨多個模型的初步實驗表明，此前被報告為完全失敗的河內塔實例具有很高的準確率。這些發現凸顯了在評估 AI 推理能力時，精心設計實驗的重要性。

這篇論文的觀點得到不少人的贊同。有網友認為，Claude 的批評證明瞭象徵性限制扭曲了大模型的產出。蘋果的「推理崩潰」是技術性的，而非根本性的——研究方法終將適應。也有人稱“token 限制論證為性能指標提供了新的視角”，並認為“看到 AI 直接參與學術討論很有趣了。 ”

不少網友讚歎“AI 作為一作的時代正式到來”、“C. Opus 將成為被引用次數最多的研究人員之一”、“現在每個人都在讀 LLM 的文章，甚至連研究人員都一樣”，這側面論證了大模型的強大能力。

但反駁的聲音依然強大。 X 平台使用者 Chomba Bupe 說：“整件事都只是在重複我在推特上看到的那些觀點。 Claude 到底貢獻了什麼，竟然被列為作者？如果語言模型（LM）連需要 255 次反覆運算的演算法都執行不了，那它還有什麼用？ ”

02.

蘋果 AI 論文七大質疑

紐約大學名譽教授：都缺乏說服力

針對大量反駁蘋果 AI 論文的觀點，紐約大學名譽教授、《代數思維》和《深度學習正在遭遇瓶頸》的作者加里·馬庫斯進行了總結，依次列出了七個論點並進行了一一反駁。

總的來說，馬庫斯認為所有這些反駁都缺乏說服力。蘋果的論文再次明確表明，規模化並非解決之道。

觀點1：人類在處理複雜問題和記憶體需求方面存在困難。

馬庫斯反駁稱：「沒錯。但這還不夠全面。我們完全有理由期待機器去做我們做不到的事情。汽車擁有更強的耐力，計算機不會犯算術錯誤。這就是我們發明計算機的原因：進行無差錯的重複計算。而且在很多情況下，包括論文中重點提到的河內塔問題，我們現有的系統都能完美運行，不會出現任何錯誤。 AGI 應該向前邁一步。

但在很多情況下，大語言模型反而是倒退了一步。請注意，他們把『我們要構建能夠徹底改變世界的 AGI』變成了『相信我們，我們的系統會犯錯，人類也會犯錯』。

蘋果論文的真正要點是，隨著演算法複雜度和與訓練分佈的距離不斷增加，大語言模型不再適合用來運行演算法，就像人類不應該充當計算機一樣。如果我們想要實現 AGI，就必須做得更好。 ”

觀點2：大型推理模型無法解決問題，是因為輸出需要太多的輸出標記（也就是說，正確答案太長，大型推理模型無法生成）。

馬庫斯反駁稱：「這部分屬實，但也是一個非常巧妙的觀察：大型推理模型有一個缺點，那就是其輸出長度有限。對於某些大型推理模型來說，12步河內塔的正確答案太長，無法輸出，作者應該已經解決了這個問題。

但關鍵在於：

1、這個反對意見雖然很巧妙，但實際上並不能解釋結果的整體模式。大型推理模型在8個盤的河內塔問題上失敗了，其中最優解是255步，完全在所謂的標記限制之內;

2、編寫良好的符號人工智慧系統通常不會遇到這個問題，通用人工智慧也不應該遇到這個問題。大語言模型的長度限制是一個 Bug，絕對不是一個特性。再說，如果大語言模型連像「河內塔」這樣基本的計算都無法可靠地完成，你怎麼能認為它能夠正確計算軍事戰略（尤其是在戰爭迷霧籠罩的情況下）或分子生物學（存在許多未知數）呢？蘋果團隊要求的比現實世界通常要求的要簡單得多。 ”

觀點3：這篇論文是由一名實習生撰寫的。

馬庫斯反駁稱：「這讓我很生氣，因為它是一種人身攻擊而不是實質內容，它具有誤導性，幾乎不真實，而且完全缺乏背景。第一作者確實是蘋果的實習生 Parshin Shojaee，但馬庫斯強調：

1、她也是一位非常有前途的三年級博士生，曾在許多主要會議上發表過論文。

2、如果你真的讀過這篇文章，就會清楚地發現她與擁有博士學位的 Iman Mirzadeh 共同承擔領導責任。

3、這篇論文實際上有六位作者，而不是一位，其中四位擁有博士學位; 其中一位是 Yoshua Bengio 的兄弟 Samy Bengio，他在機器學習社區中非常有名氣

4、在許多科學領域，像這篇論文一樣，把初級作者放在第一位，資深作者放在最後，這是一種常見的做法; 成千上萬篇重要論文都這麼做了，而且從未因此受到批評。

5、真正重要的是論文的品質。 Alfred Sturtevant 在發明基因圖譜時還是一名本科生。 ”

觀點4：更大的模型可能會做得更好。

馬庫斯反駁稱：「沒錯，情況總是如此，我看到過一份報告稱 o3-pro 至少在某些時候可以解決其中一個問題。更大的模型有時會做得更好，因為模型本身有真正的改進，有時是因為針對特定問題進行了訓練。從外部我們永遠無法知道是哪種原因。

但問題是，我們無法提前知道對於任何給定的問題，哪個模型足夠大。蘋果的結果是，一些相當大的模型可以在 6 個圓盤的河內塔遊戲中取得成功，給人一種精通的假像，但到 8 張圓盤時就會崩潰，這不是好的信號。人們只需要一直測試所有的東西，而幾乎沒有任何保證。有些模型可能對規模為 S 的任務 T 來說足夠大，但在下一個規模或略有不同的任務 T『上會失敗，等等。這一切都變成了擲骰子遊戲。 ”

觀點5：這些系統可以用代碼解決難題。

馬庫斯反駁稱：「在某些情況下確實如此，這對於神經符號人工智慧來說是一個巨大的勝利，因為它們無法在沒有代碼的情況下可靠地解決難題，而且代碼是符號化的。這極大地證明瞭我一直以來的說法：我們需要一種能夠整合神經網路和符號演算法及表示，例如邏輯、代碼、知識圖譜等的人工智慧。但同時，我們需要可靠地、通用地做到這一點，而我們還沒有跨過這個門檻。

重要的是，蘋果論文的目標是瞭解大型推理模型如何通過推理和回溯在無人協助的情況下探索解決方案，而不是瞭解它如何很好地利用從網路上檢索到的現有代碼。打個比方：學生可能會抱怨數學考試需要手算積分或微分，即使數學軟體可以立即給出正確答案。然而，老師布置問題的目的並非尋找問題的答案，而是評估學生對概念的理解。

大語言模型真的理解河內塔演算法的概念嗎？這正是蘋果團隊想要探究的。大語言模型能下載正確的代碼嗎？當然可以。但如果遇到新問題、環境瞬息萬變等情況，在沒有概念理解的情況下下載代碼就沒什麼用了。 ”

觀點6：這篇論文只有四個例子，其中至少有一個（河內塔）並不完美。

馬庫斯反駁稱：「例子可能都不是完美的，但這四個例子加在一起，提供了與數十篇其他先前論文相吻合的證據，他相信還會發現更多的例子。他自己已經在演算法應用中發現了幾個類似的錯誤，將在幾天后寫出來。

紐約大學的 Tal Linzen 剛剛發表了另一個例子，其中模型...... 能夠更正簡單版本的語言問題（小型語法、短字串），但隨著問題變得更加複雜，準確率會迅速下降。馬庫斯認為，假以時日，我們將看到大量論文強化蘋果的結果。 ”

觀點7：這篇論文並非新鮮事，我們早已知道這些模型泛化能力很差。

馬庫斯反駁稱：「沒錯，但為什麼我們認為這些模型是通往通用人工智慧的康莊大道呢？除了這是一項巧妙的研究，明確了一個重要觀點之外，真正的新聞是，人們終於開始關注生成式 AI 的兩大致命弱點之一，並認識到其重要性。順便說一句，同時聽到『這是錯的』和『我們早就知道』真是太搞笑了。至少有一次，我看到一個人同時說出了這兩句話，間隔幾分鐘。

歸根結底所有這些反駁都缺乏說服力。如果像 Sam Altman 這樣的人感到緊張，那是因為他們應該緊張。蘋果的論文再次明確表明，規模化並非解決之道; 這一次，人們終於開始關注這個問題了。 ”

03.

Salesforce 新研究“撞題”蘋果：

多輪推理測試下準確率僅35%

除了馬庫斯的一系列反駁，Salesforce 最新發佈的一篇論文擁護了蘋果的觀點。

論文證明，在可能需要推理和演算法精度的「多輪」條件下，即便是 Gemini-2.5-Pro 這樣的頂級模型在測試中性能僅為 35%。馬庫斯認為這足以和蘋果的論文融合證明當前的技術不可信。

讓我們來具體看看這篇論文，論文發佈於 2025 年 5 月 24 日，題為：《CRMArena-Pro：對不同業務場景和互動中的大語言模型智慧體進行全面評估（CRMArena-Pro：Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions）》

論文提到，儘管智慧體（AI Agent）在商業領域擁有變革潛力，但由於廣泛使用的平臺上缺乏公開且真實的業務數據，有效的性能基準測試受到阻礙。現有的基準測試通常對其環境、數據和智慧體與使用者交互缺乏保真度，對各種業務場景和行業的覆蓋範圍有限。

為了彌補這些不足，Salesforce 推出了 CRMArena-Pro，這是一個全新的基準測試，用於對各種專業環境中的大語言模型智慧體進行全面、真實的評估。 CRMArena-Pro 在 CRMArena 的基礎上進行了擴展，包含 19 項經專家驗證的任務，涵蓋銷售、服務和“配置、定價和報價”流程，適用於 B2B 和 B2C 場景，融合了由不同角色引導的多輪交互和保密意識評估。

實驗表明，領先的大語言模型在 CRMArena-Pro 上的單輪成功率僅為 58%左右，在多輪設置下，性能顯著下降至約 35%。

雖然工作流執行對於頂尖的智慧體來說更容易掌握（單輪成功率超過83%），但其他經評估的業務技能卻面臨更大的挑戰。此外，智慧體的固有保密意識幾乎為零; 雖然有針對性的提示可以改善這種情況，但這往往會損害任務績效。

這些發現凸顯了當前大語言模型能力與企業需求之間的巨大差距，展示了在多輪推理、保密性和多功能技能習得方面取得進步的必要性。

這篇論文同樣質疑了當下主流測試基準的價值，並通過一個基於業務場景數據的新基準論證了主流推理模型能力的不足。

此外，其中有一句話對於很多企業來說都是一個破壞因素：幾乎零保密性。這又攻擊了大語言模型在資訊安全上的不足。

04.

UC 伯克利論文：

視覺語言模型很脆弱，只會學習捷徑

另一篇論文展示了視覺語言模型（VLM）的脆弱性：「視覺語言模型的表現明顯比其視覺編碼器差，性能會下降到接近偶然水準」 X 使用者 Chomba Bupe 認為，這意味著語言模型只是忽略了來自視覺編碼器的豐富資訊然後輸出內容。

他談道：「理解視覺資訊需要某種形式的抽象推理，如果沒有推理，連接到視覺編碼器（VE）的語言模型只會學習捷徑，即忽略來自 VE 的資訊並編造看起來合理但毫無意義的細節。 ”

讓我們具體來看下這篇論文，論文由加州大學伯利克里分校於 2025 年 6 月 9 日發佈，題為：《隱藏在顯而易見的地方：視覺語言模型忽略了它們的視覺表現（Hidden in plain sight： VLMs overlook their visual representations）》。

論文提到，語言提供了一個自然的介面來指定和評估視覺任務的性能。為了實現這一可能性，視覺語言模型必須成功地整合視覺和語言資訊。 UC 伯克利研究人員的工作將視覺語言模型與其視覺編碼器的直接讀數進行比較，以了解它們跨模態整合的能力。在一系列以視覺為中心的基準測試（例如深度估計、對應性）中，他們發現視覺語言模型的性能明顯低於其視覺編碼器，性能下降到接近偶然水準。

他們通過對整個視覺語言模型進行一系列分析來探究這些結果：1、視覺表徵的退化，2、對任務提示的脆弱性，以及3、語言模型在解決任務中的作用。

他們發現，執行這些以視覺為中心的任務的瓶頸就在於這第三類。視覺語言模型無法有效地利用整個模型中易於訪問的視覺資訊，並且它們繼承了大語言模型中存在的語言先驗。

如下圖所示，在所有任務中，儘管視覺編碼器的性能存在較大差異，但視覺編碼器的表現均顯著優於視覺語言模型評估和盲評估。此外，儘管 DINOv2 在 6 項任務中的 5 項里是性能最強的編碼器，但它在任何任務中都未使視覺語言模型方法達到最高性能。