這是用戶在 2025-7-5 15:24 為 https://www.infoq.cn/article/6h6Iu6HcGWyqvoyRmCm2 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?
   寫點什麼

2G 記憶體跑 Gemma 3n 完整版! 全球首個 10B 內模型殺瘋 LMArena:1300 分碾壓記錄

  • 2025-06-27
    北京
  •   本文字數:3183 字

      閱讀完需:約 10 分鐘

大小:1.53M 時長:08:56
2G内存跑Gemma 3n完整版!全球首个10B内模型杀疯LMArena:1300分碾压记录

當地時間 6 月 26 日,在上個月的 Google I/O 上首次亮相預覽后,谷歌如今正式發佈了 Gemma 3n 完整版,可以直接在本地硬體上運行。

 

“迫不及待地想看看這些 Android 的性能!” 正式發佈後有開發者說道。

 

Gemma 系列是谷歌推出的一組開源大模型。 與 Gemini 不同:Gemma 面向開發者,可供下載和修改,而 Gemini 是谷歌的封閉專有模型,更注重性能與商業化。

 

據悉,此次正是發佈的 Gemma 3n 現已具備輸入圖像、音訊和視頻的能力,支援文本輸出,還能在最低 2GB 記憶體的設備上運行,在程式設計與推理等任務上據稱表現更佳。 具體看,主要更新亮點包括:

 

  • 天生多模態設計:原生支援圖像、音訊、視頻和文本的輸入,以及文本輸出。

  • 端側優化設計:Gemma 3n 著眼於運行效率,提供兩種基於“有效參數”的尺寸:E2B 和 E4B。 雖然其原始參數量分別為 5B 和 8B,但通過架構創新,它們運行時的記憶體佔用量僅相當於傳統的 2B 和 4B 參數模型,並且最低僅需 2GB(E2B)和 3GB(E4B)記憶體即可運行。

 

至於基準測試,Gemma 3n 的 E4B 模型成為首個在參數規模低於 10 B 的前提下,LMArena 測評得分突破 1300 的模型,表現優於 Llama 4 Maverick 17 B、GPT 4.1-nano、Phi-4。



效果好不好?

 

“Gemma 3n 也是我見過的任何模型中首發最全面的:谷歌與”AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM“合作,因此現在有幾十種方法可以嘗試。 “Django Web 聯合建立者 Simon Willison 說道。

 

Willison 在 Mac 筆記型電腦上分別運行了兩個版本。 在 Ollama 上,4B 型號的 7.5GB 版本模型畫了這樣一幅畫:

 


然後,他使用 15.74 GB 的 bfloat16 版本模型得到了下面的一幅圖:



“7.5GB 和 15GB 模型量化之間存在如此顯著的視覺差異。” Willison 說道。 他還指出,Ollama 版本似乎尚不支援圖像或音訊輸入,但是 mlx-vlm 版本可以。

 

但當讓模型描述上述圖片時,模型誤認成了一張化學圖:「該圖為卡通風格的插圖,描繪了淺藍色背景下的分子結構。 該結構由多個不同顏色和形狀的元素組成,並通過彎曲的黑線連接起來。 ”

 

此外,網友 pilooch 稱讚道,該模型完全相容此前基於 Gemma3 的所有操作。 “我將其接入視覺語言模型微調腳本后,程式順利啟動(使用 HF Transformer 代碼)。 在單 GPU 運行 LoRa 微調時,E4B 模型在批量大小為 1 的情況下僅佔用 18GB VRAM,而 Gemma-4B 需要 21GB。 DeepMind 推出的 Gemma3 系列真不錯,穩居開源視覺語言模型榜首。 ”

 

也有開發者表示,“我一直在 AI Studio 裡試用 E4B,效果非常好,比 8B 型號的預期要好得多。 我正在考慮把它安裝在 VPS 上,這樣就有了其他選擇,不用再使用那些昂貴的 API 了。 ”

 

在開發者 RedditPolluter 的測試中,E2B-it 能夠使用 Hugging Face MCP,但其不得不將上下文長度限制從預設的“~4000”增加到“超過”,防止模型陷入無限的搜索迴圈。 它能夠使用搜索功能獲取一些較新型號的資訊。

 

當然,還是比較懷疑小模型的實際用處。 “我做過很多實驗,任何小於 27B 的模型基本上都用不了,除非當玩具用。 對於小模型,我只能說它們有時能給出不錯的答案,但這還不夠。 ”

 

對此,有網友表示,「我發現微型模型(< 5B 參數)的最佳用例是作為沒有WiFi時的參考工具。 我在飛機上寫代碼時,一直在 MacBook Air 上使用 Qwen 來代替谷歌搜索,它在詢問有關語法和文檔的基本問題時非常有效。 ”‘

 

  核心技術能力有哪些?

 

  MatFormer 架構是核心

 

谷歌特別指出,其高效能的核心就在於全新的 MatFormer (Matryoshka Transformer)架構,這是一種為彈性推理而設計的嵌套式 Transformer。 它類似「俄羅斯套娃」:一個較大的模型內部嵌套著一個較小但完整的子模型。 這種設計允許一個模型在不同任務中以不同「尺寸」運行,實現性能與資源使用的動態平衡。

 

這種設計將“套娃式表示學習”(Matryoshka Representation Learning)的理念,從嵌入層擴展到了整個 Transformer 架構的各個元件,大幅提升了模型在不同資源環境下的靈活性與適應性。



在對 4B 有效參數(E4B)模型進行 MatFormer 架構訓練的過程中,系統會同時在其中優化一個 2B 有效參數(E2B)子模型,如上圖所示。

 

  這項架構設計同時為開發者帶來了兩大關鍵能力:

 

  • 預提取模型,開箱即用 開發者可根據應用場景自由選擇完整的 E4B 主模型獲得更強性能,也可以直接使用已經預提取好的 E2B 子模型。 在保證準確率的前提下,E2B 實現了高達 2 倍的推理速度,尤其適合邊緣設備或算力受限場景。

  • Mix-n-Match 定製模型。 針對不同硬體資源的限制,開發者可以通過 Mix-n-Match 方法,在 E2B 與 E4B 之間自由定製模型大小。 該方法通過靈活調整每層前饋網路的隱藏維度(如從 8192 調整到 16384),並選擇性跳過部分層,從而構建出多種不同規模的模型。

 

與此同時,谷歌還推出了輔助工具 MatFormer Lab,方便開發者基於多個基準測試結果(如 MMLU)快速挑選並提取出性能最優的模型配置。

 


谷歌表示,MatFormer 架構還為“彈性推理”奠定了基礎。 儘管這一能力尚未在本次發佈的實現中正式上線,但它的設計理念已初步成型:單個部署的 E4B 模型,未來將能在運行時動態切換 E4B 與 E2B 的推理路徑,根據當前任務類型和設備負載,實時優化性能表現與記憶體佔用。

  大幅提升記憶體效率的關鍵

 

在最新的 Gemma 3n 模型中,谷歌引入了名為 Per-Layer Embeddings(逐層嵌入,簡稱 PLE) 的創新機制。 該機制專為端側部署而設計優化,可顯著提高模型品質,同時不會增加設備加速器(如 GPU/TPU)所需的高速記憶體佔用。

 

這樣一來,儘管 E2B 和 E4B 模型的總參數數量分別為 5B 和 8B,但 PLE 允許很大一部分參數(即分佈在各層的嵌入參數)在 CPU 上高效載入和計算。 這意味著只有核心 Transformer 權重(E2B 約為 2B,E4B 約為 4B)需要存儲在通常較為受限的加速器記憶體 (VRAM) 中。



  大幅提升長上下文處理速度

 

在許多先進的端側多模態應用中,處理長序列輸入(如音訊、視頻流所生成的內容)已成為核心需求。 為此,Gemma 3n 引入了 KV Cache Sharing(鍵值緩存共用)機制,加快了長文本推理中“首個 Token”的生成速度,尤其適用於流式響應場景。

 

具體而言,KV Cache Sharing 對模型的 Prefill 階段進行了優化:中間層中,來自局部與全域注意力機制的中間層 Key 與 Value 會直接共用給所有上層結構。 與 Gemma 3 4B 相比,這使 Prefill 性能獲得高達 2 倍的提升。

 

  全新視覺編碼器,提升多模態任務表現

 

Gemma 3n 推出了全新高效的視覺編碼器:MobileNet-V5-300M,來提升邊緣設備上的多模態任務表現。

 

MobileNet-V5 支援多種解析度(256×256、512×512、768×768),方便開發者根據需求平衡性能與畫質。 它在大規模多模態數據上進行訓練,擅長處理多種圖像和視頻理解任務。 吞吐率方面,其在 Google Pixel 設備上可實現每秒最高 60 幀的即時處理速度。

 

這一性能突破得益於多項架構創新,包括基於 MobileNet-V4 的先進模組、能高大 10 倍擴的深度金字塔架構,以及多尺度融合視覺語言模型適配器等。 相較於 Gemma 3 中未蒸餾的 SoViT,MobileNet-V5-300M 在 Google Pixel Edge TPU 上實現了最高 13 倍速度提升(量化後),參數減少 46%,記憶體佔用縮小 4 倍,同時準確率大幅提升。

 

  支援語音辨識與語音翻譯

 

音訊處理方面,Gemma 3n 搭載了基於 Universal Speech Model(USM) 的先進音訊編碼器,可對每 160 毫秒的語音生成一個 token(約每秒 6 個 token),並將其作為輸入集成至語言模型中,從而提供更加細緻的語音上下文表示,這為端側應用解鎖了語音識別和語音翻譯功能。

 

據悉,Gemma 3n 在英語與西班牙文、法語、義大利語、葡萄牙語之間的轉換效果尤為出色。 同時,在進行語音翻譯任務時,結合“思維鏈式提示”策略,可進一步提升翻譯品質與穩定性。

 

  參考連結:

https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/

https://simonwillison.net/2025/Jun/26/gemma-3n/

  大會推薦:
8 月 22~23 日的 AICon 深圳站 將以 “探索 AI 應用邊界” 為主題,聚焦 Agent、多模態、AI 產品設計等熱門方向,圍繞企業如何通過大模型降低成本、提升經營效率的實際應用案例,邀請來自頭部企業、大廠以及明星創業公司的專家,帶來一線的大模型實踐經驗和前沿洞察。 一起探索 AI 應用的更多可能,發掘 AI 驅動業務增長的新路徑!

2025-06-27 19:007194

  評論

  發佈
   暫無評論

蘋果電腦玩魔獸世界需要什麼配置? MacBook 玩魔獸世界卡頓丟包怎麼辦

   阿拉燈神丁

   遊戲 CleanMyMac X    蘋果電腦    國外伺服器    魔獸世界單機

.NET 8.0 引領新一代通用管理平臺:模組化、WinForms 與 WPF 全面融合

   代碼忍者

   API 介面對淘寶的深遠影響有什麼?

科普小能手

  應用程式介面 API 介面 API 測試

即夢 AI 推出“一句話改圖”功能,助力用戶發掘更多創意

   極客天地

【企業數字化轉型】一文講透 DevOps 理論體系的演進

   京東科技開發者

   瑞典國家旅遊局開創先例申請註冊目的地商標

   財見

   13.觀察者模式設計思想

   楊充

LLMs 如何處理相互矛盾的指令? 指令遵循優先順序實驗

白海 IDP

   程式師   人工智慧  法學碩士   提示   基因人工智慧

   【實踐篇】一次 Paas 化熱部署實踐分享

   京東科技開發者

   富士膠片集團發佈2024財年上半年度財務報告

   財見

百度 APP 月活超過 7.04 億,AI 成全方位增長的新驅動力

   科技熱聞

   AI 會計師:讓 AI+成就價值財務

   用友智能財務

  人工智慧   AI 技術實踐

使用 NGINX 和 NGINX Plus 實現負載均衡(第 1 部分)

   NGINX 開源社區

nginx    負載均衡    讀書筆記

   新人如何做好專案管理?|京東零售技術人成長

   京東零售技術

   專案管理    技術成長    項目經理

數造科技:賦能數位政府與智慧城市,推動數據資產入表

   數造萬象

   政務   DataOps 公司 大模型 #科技    數據資產入表

   記一次老商家端應用記憶體突然飈高原因分析

   京東科技開發者

   前端調試實踐

   京東零售技術

前端

   高校數位校園建設的數位身份管理難題

   芯盾時代

   數位身份   山藥   身份和訪問管理    數字化校園

   如何在 Python 中集成京東 API

   代碼忍者

API 介面 拼多多 API

2G内存跑Gemma 3n完整版!全球首个10B内模型杀疯LMArena:1300分碾压记录_AI&大模型_褚杏娟_InfoQ精选文章