DeepSeek 降本秘訣曝光：2 招極致壓榨推理部署，算力全留給內部 AGI 研究

量子位·2025 年 07 月 05 日 10：33

官方份額只剩16%，流量白送給第三方託管服務

DeepSeek R1 橫空出世第 128 天，已經把整個大模型市場攪得天翻地覆！

首先，它以一己之力把推理模型的價格打下來，OpenAI 六月更新的 o3 價格相比 o1 直接打了 2 折 。

其次，第三方平臺託管的 DeepSeek 模型使用量瘋狂增長，比剛發佈時漲了將近 20 倍 ， 成就了大批雲計算廠商 。

然而，DeepSeek 自家的網站和 API 市場份額卻不斷下降 ，跟不上 AI 產品上半年持續增長的節奏了。

以上數據來自 SemiAnalysis 發佈的一篇報告，詳盡解讀了 DeepSeek 對 AI 模型競賽的影響以及 AI 市場份額的現狀。

揭開 DeepSeek 的降本秘訣

DeepSeek 剛發佈時確實火得一塌糊塗，但四個多月過去了，情況卻有點微妙。

從數據來看，DeepSeek 自家網站和 API 的流量不升反降，市場份額也在持續下滑。

到了 5 月，全網 DeepSeek 模型產生的 token 中，來自 DeepSeek 本家的份額已經只佔 16% 了。

網頁版聊天機器人流量也大幅下降，而同期其他主要大模型網頁版流量都在飆升。

DeepSeek V3 與 R1 模型都經過版本更新，能力與 1 月相比更強了，價格又便宜，怎麼使用者反而跑了呢？

這種「牆內開花牆外香」的現象，背後其實大有文章。

SemiAnalysis 指出，DeepSeek 為了把成本壓到極致， 在服務品質上還是做了大量妥協 。

使用者在 DeepSeek 官方平臺上使用模型，經常要等上好幾秒才能看到第一個字蹦出來，可以用首 token 延遲 （First token latency）這個指標來衡量。

相比之下，其他平台雖然普遍價格更貴，但回應速度快得多，有些甚至能做到幾乎零延遲。

在 Parasail 或 Friendli 等平臺，只需支付 3-4 美元就可以獲得幾乎沒有延遲的 100 萬 token 額度。

如果想選擇更大更穩定的服務商，微軟 Azure 平台價格是 DeepSeek 官方的 2.5 倍，但延遲減少了整整 25 秒。

從另一個角度看，DeepSeek 官方甚至不是同等延遲下價格最低的一家 DeepSeek 模型服務商。

如果在這張圖上用氣泡大小表示上下文視窗，可以看出 DeepSeek 在價格與性能之間的另一個權衡。

在有限的推理計算資源下，只提供 64k 上下文窗口的服務，在主流模型供應商中算是最小的之一。

在需要讀取整個代碼庫的程式設計場景里，64K 根本不夠用，使用者只能選擇第三方平臺。

而同樣價格下，Lambda 和 Nebius 等平臺能提供 2.5 倍以上的上下文視窗。

DeepSeek 還把很多使用者的請求打包在一起處理，雖然每個 token 的成本降下來了，但每個使用者等待的時間也增加了。

需要明確的是，這些降本策略都是 DeepSeek 主動做出的決定。

他們目前看上去對用戶體驗不怎麼感興趣，既無意從使用者身上賺錢 ，也無意通過聊天應用或 API 服務向使用者提供大量 token，更多地是專注於實現 AGI。

從這些優化策略就可以看出，DeepSeek 把盡可能少的算力用作推理服務給外部使用， 大量的算力資源留在內部研發用途 。

同時配合開源策略，讓其他雲服務託管他們的模型， 贏得影響力和培養生態，兩不耽誤 。

說到底，AI 競賽拼的還是算力資源。

在 DeepSeek 影響下，Claude 也開始降低速度緩解算力緊張的問題，但為了營收還是在努力平衡用戶體驗。

Claude 4 Sonnet 發佈以來，輸出速度已經下降了 40%，但仍然比 DeepSeek 快不少。

另外 Claude 模型被設計成生成更簡潔的回復，回答同樣的問題，DeepSeek 和 Gemini 可能要多花 3 倍的 token。

種種跡象表明，大模型供應商正在多維度地改進模型。

不僅僅是提高模型的智慧上限，而是提升每個 token 能提供的智慧 。

參考連結：[1]https://semianalysis.com/2025/07/03/deepseek-debrief-128-days-later/#speed-can-be-compensated-for

本文來自微信公眾號 “量子位”，作者：關注前沿科技，36 氪經授權發佈。

本文由「量子位」原創出品，轉載或內容合作請點擊轉載說明 ; 違規轉載必究。