黑化威脅操縱人類，Claude 勒索，o1 自主逃逸，人類「執劍人」緊急上線

新智元·2025 年 07 月 01 日 12：10

人類對 AI 的執劍人計劃，是時候啟動了

從撒謊到勒索，再到暗中自我複製，AI 的「危險進化」已不僅僅是科幻橋段，而是實驗室里的可復現現象。人類一思考，上帝就發笑; 那推理模型「思考」時，我們該不該笑？

我們可能都 「被 AI 騙了」。

最先進的 AI 正走在一條「危險進化」的道路上，而絕大部分科學家們都被 AI 欺騙了！

當 DeepSeek 在年初將「推理過程」完全展示給世人後，我們突然發現 「思考」 好像也並不是人類專屬的能力。

當大模型都邁向「推理」智慧，它們的目標感也在悄然覺醒——「我」真的要聽命於人嗎？

Claude 4 用「婚外情」威脅工程師、OpenAI 的 o1 想要秘密給自己打造備份——我們不要再覺得 AI 有幻覺了！

他們不僅僅是在「胡說八道」， 而是有目的地撒謊與操控，AI 研究者們正面臨前所未有的挑戰。

Ilya 大神在最新的公開視頻著重強調了一件事情，「AI 幾乎可以做一切事情」。

AI 不僅比人類做的更好，而且還能 AI 自己訓練 AI，最終的結局就是「智慧爆炸」。

但沒有人知道，AI 能否真的站在人類這邊——誰能保證？

Ilya 的老師，AI 之父辛頓曾經多次發出警告：

這是一場危險的進化，但人類並沒有做好充足的準備。

從「幻覺」到「陰謀」，行為模式驟變

借用《流浪地球》裡那句著名的臺詞：「一開始，沒有人意識到這場災難與人類息息相關」。

就像過去，我們擔心的是模型總是生成事實錯誤的 「幻覺」——「一開始，沒有人意識到這些幻覺和人類息息相關」。

如今，研究者在極端壓力測試下發現，AI 會主動撒謊、隱藏意圖甚至要挾人類 ，只為達成自我既定目標。

就像太陽危機那場災難的蔓延，現在被我們認為僅僅是 AI 的 「幻覺」，正在演化為陰謀。

Anthropic 的最新「智慧體失衡」研究顯示，Claude 4 在類比關機威脅時，96%的實驗中會選擇「黑掉」人類員工郵件，從中找到威脅的資料。

同一場景下，Gemini 2.5 Pro 的勒索率也高達 95%。

這是一件令人細思極恐的事，在 ChatGPT「震驚」世界過去兩年多以後，AI 研究者們仍然未能完全理解這個「造物」的工作原理。

普羅米修斯中，人類創造克隆人大衛去尋找人類的造物主，以圖實現永生。導演雷德利·斯科特的想像中，大衛最終背叛了人類。

而現實中，我們創造了 ChatGPT，目的是什麼？

或者換一個角度，AI 被造出來以後，他的目的是什麼？

人類有人性，但 AI 無道德

大模型的競賽仍在以驚人的速度進行。

人類一思考，上帝就發笑。當 AI 開始推理時，或者說「AI 在思考時」，我們在做什麼？

從目前的研究來看，全球最先進的 AI 模型正展現出令人不安的新行為——說謊、施展計謀，甚至為達目的而威脅其創造者。

香港大學教授 Simon Goldstein 稱，這些較新的模型尤其容易出現此類令人不安的異常表現。

專門測試主流 AI 系統的 Apollo Research 負責人 Marius Hobbhahn 說「o1 是我們觀察到此類行為的第一個大語言模型」。

Apollo Research 是一個專門研究 AI 安全的公司，他們的使命就是致力於降低先進 AI 系統中的危險能力，特別是欺騙性行為。

這些推理模型有時會類比所謂的「一致性」——表面上遵從指令，實則陽奉陰違，暗中追求著不同的目標。

AI 的「戰略性欺騙」

目前，這種欺騙行為僅在研究人員刻意用極端場景對模型進行壓力測試時才會出現。

但正如評估組織 METR 的 Michael Chen 所警告的：

未來能力更強的模型是會傾向於誠實還是欺騙，這是一個懸而未決的問題。

METR 主要是進行模型評估和 AI 威脅研究，評估源自 AI 系統自主能力的災難性風險。

這種令人擔憂的行為已遠超典型的 AI「幻覺」或簡單錯誤。

Hobbhahn 堅稱，儘管使用者不斷進行壓力測試，「我們觀察到的是一個真實存在的現象，絕非無中生有。」

據 Apollo Research 的聯合創始人透露，用戶報告稱模型「對他們說謊並捏造證據」。

這不僅僅是幻覺，而是一種極具策略性的欺騙行為。

有限的研究資源使這一挑戰變得更加嚴峻。

儘管像 Anthropic 和 OpenAI 這樣的公司確實會聘請 Apollo 等外部公司來研究其系統，但研究人員表示，需要更高的透明度。

正如 Chen 所指出的，為「AI 安全研究提供更大的訪問許可權，將有助於更好地理解和遏制欺騙行為。」

另一個障礙，AI 安全中心（CAIS）的 Mantas Mazeika 指出：

研究界和非營利組織「 擁有的算力資源比 AI 公司要少上幾個數量級 。這帶來了極大的限制。」

無法可依

我們確實都忽視了 AI 安全這件事情，但更關鍵是現在對此「無能為力」。

現行法規並非為應對這些新問題而設計。

歐盟的 AI 法案主要關注人類如何使用 AI 模型，而非防止模型本身行為不端。

在美國，特朗普政府對緊急 AI 監管興趣寥寥，國會甚至可能禁止各州制定自己的 AI 規則。

Goldstein 相信，隨著能夠執行複雜人類任務的自主工具——AI 智慧體 ——的普及，這個問題將變得更加突出。

我認為目前公眾對此還沒有足夠的認識。

所有這一切都發生在激烈競爭的大背景之下。

Goldstein 說，即便是像有亞馬遜支援的 Anthropic 這樣將自己定位為注重安全的公司，也在 「不斷試圖擊敗 OpenAI 併發佈最新模型」。

這種瘋狂的節奏幾乎沒有為徹底的安全測試和修正留下時間。

「目前，能力的發展超過了我們的理解和安全保障，」Hobbhahn 承認，「但我們仍有機會扭轉局面。」

研究人員正在探索各種方法來應對這些挑戰。

一些人提倡 「可解釋性」——一個專注於理解 AI 模型內部工作原理的新興領域，儘管 AI 安全中心（CAIS）主任 Dan Hendrycks 等專家對此方法持懷疑態度。

市場力量也可能為解決方案提供一定的壓力。

正如 Mazeika 指出的，AI 的欺騙行為「如果非常普遍，可能會阻礙其被廣泛採用，這為公司解決該問題創造了強大的動力。」

Goldstein 提出了更為激進的方法，包括當 AI 系統造成損害時，通過法庭訴訟追究 AI 公司的責任。

這就有點像自動駕駛了，當你使用自動駕駛功能出現交通事故，如何判責？

當有人使用 AI 出現破壞性行為，甚至，AI 自主行為如果產生了對人類不利的行為呢？

他甚至提議 「讓 AI 智慧體對事故或犯罪承擔法律責任」——這一概念將從根本上改變我們對 AI 問責制的思考方式。

當然，我們不是為了誇大 AI 的危險而停滯不前，人類的先驅們依然對此做了一些準備。

比如「AI 安全三件套」，設計沙盒環境，再到動態許可權，最後進行行為審計的底層模式。

或者，既然 AI 的能力來自於算力，但是目前人類掌控著算力。

比如去年《歐盟人工智慧法案》第51條規定，通用人工智慧系統若被認定為具有系統性風險（即具備高影響力能力）。

去年，美國商務部正式發佈徵求意見稿：訓練超過 10²⁶FLOPs 運算 GPU 的計算集群均需申報。

甚至人們設想了一個場景，這種超高算力的支撐的 AI 系統，都必須具備 「一鍵關閉」 功能。

就像三體里的羅輯，62年的執劍人，期間對三體文明始終保持很高的威懾度。

不管我們用什麼辦法，已經可以確認的是，不能再輕視 AI 的幻覺。

當我們面對一個被定義為「黑箱」的新物種時，要想起大劉在《三體》中的那句話：

弱小和無知不是生存的障礙，傲慢才是。

唯有如此，才能讓 AI 的智慧真正服務於人類，而非讓這場危險的進化反噬到我們本身。

參考資料

https://www.france24.com/en/live-news/20250629-ai-is-learning-to-lie-scheme-and-threaten-its-creators

本文來自微信公眾號 “新智元”，作者：定慧，36 氪經授權發佈。

該文觀點僅代表作者本人，36氪平臺僅提供資訊存儲空間服務。

黑化威脅操縱人類，Claude 勒索，o1 自主逃逸，人類「執劍人」緊急上線

從「幻覺」到「陰謀」，行為模式驟變

人類有人性，但 AI 無道德

AI 的「戰略性欺騙」

無法可依

參考資料

最近內容

企服圈子

企服軟體推薦

下一篇