大小:1.53M 時長:08:56

當地時間 6 月 26 日,在上個月的 Google I/O 上首次亮相預覽后,谷歌如今正式發佈了 Gemma 3n 完整版,可以直接在本地硬體上運行。
“迫不及待地想看看這些 Android 的性能!” 正式發佈後有開發者說道。
Gemma 系列是谷歌推出的一組開源大模型。 與 Gemini 不同:Gemma 面向開發者,可供下載和修改,而 Gemini 是谷歌的封閉專有模型,更注重性能與商業化。
據悉,此次正是發佈的 Gemma 3n 現已具備輸入圖像、音訊和視頻的能力,支援文本輸出,還能在最低 2GB 記憶體的設備上運行,在程式設計與推理等任務上據稱表現更佳。 具體看,主要更新亮點包括:
天生多模態設計:原生支援圖像、音訊、視頻和文本的輸入,以及文本輸出。
端側優化設計:Gemma 3n 著眼於運行效率,提供兩種基於“有效參數”的尺寸:E2B 和 E4B。 雖然其原始參數量分別為 5B 和 8B,但通過架構創新,它們運行時的記憶體佔用量僅相當於傳統的 2B 和 4B 參數模型,並且最低僅需 2GB(E2B)和 3GB(E4B)記憶體即可運行。
至於基準測試,Gemma 3n 的 E4B 模型成為首個在參數規模低於 10 B 的前提下,LMArena 測評得分突破 1300 的模型,表現優於 Llama 4 Maverick 17 B、GPT 4.1-nano、Phi-4。

效果好不好?
“Gemma 3n 也是我見過的任何模型中首發最全面的:谷歌與”AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM“合作,因此現在有幾十種方法可以嘗試。 “Django Web 聯合建立者 Simon Willison 說道。
Willison 在 Mac 筆記型電腦上分別運行了兩個版本。 在 Ollama 上,4B 型號的 7.5GB 版本模型畫了這樣一幅畫:

然後,他使用 15.74 GB 的 bfloat16 版本模型得到了下面的一幅圖:

“7.5GB 和 15GB 模型量化之間存在如此顯著的視覺差異。” Willison 說道。 他還指出,Ollama 版本似乎尚不支援圖像或音訊輸入,但是 mlx-vlm 版本可以。
但當讓模型描述上述圖片時,模型誤認成了一張化學圖:「該圖為卡通風格的插圖,描繪了淺藍色背景下的分子結構。 該結構由多個不同顏色和形狀的元素組成,並通過彎曲的黑線連接起來。 ”
此外,網友 pilooch 稱讚道,該模型完全相容此前基於 Gemma3 的所有操作。 “我將其接入視覺語言模型微調腳本后,程式順利啟動(使用 HF Transformer 代碼)。 在單 GPU 運行 LoRa 微調時,E4B 模型在批量大小為 1 的情況下僅佔用 18GB VRAM,而 Gemma-4B 需要 21GB。 DeepMind 推出的 Gemma3 系列真不錯,穩居開源視覺語言模型榜首。 ”
也有開發者表示,“我一直在 AI Studio 裡試用 E4B,效果非常好,比 8B 型號的預期要好得多。 我正在考慮把它安裝在 VPS 上,這樣就有了其他選擇,不用再使用那些昂貴的 API 了。 ”
在開發者 RedditPolluter 的測試中,E2B-it 能夠使用 Hugging Face MCP,但其不得不將上下文長度限制從預設的“~4000”增加到“超過”,防止模型陷入無限的搜索迴圈。 它能夠使用搜索功能獲取一些較新型號的資訊。
當然,還是比較懷疑小模型的實際用處。 “我做過很多實驗,任何小於 27B 的模型基本上都用不了,除非當玩具用。 對於小模型,我只能說它們有時能給出不錯的答案,但這還不夠。 ”
對此,有網友表示,「我發現微型模型(< 5B 參數)的最佳用例是作為沒有WiFi時的參考工具。 我在飛機上寫代碼時,一直在 MacBook Air 上使用 Qwen 來代替谷歌搜索,它在詢問有關語法和文檔的基本問題時非常有效。 ”‘
核心技術能力有哪些?
MatFormer 架構是核心
谷歌特別指出,其高效能的核心就在於全新的 MatFormer (Matryoshka Transformer)架構,這是一種為彈性推理而設計的嵌套式 Transformer。 它類似「俄羅斯套娃」:一個較大的模型內部嵌套著一個較小但完整的子模型。 這種設計允許一個模型在不同任務中以不同「尺寸」運行,實現性能與資源使用的動態平衡。
這種設計將“套娃式表示學習”(Matryoshka Representation Learning)的理念,從嵌入層擴展到了整個 Transformer 架構的各個元件,大幅提升了模型在不同資源環境下的靈活性與適應性。

在對 4B 有效參數(E4B)模型進行 MatFormer 架構訓練的過程中,系統會同時在其中優化一個 2B 有效參數(E2B)子模型,如上圖所示。
這項架構設計同時為開發者帶來了兩大關鍵能力:
預提取模型,開箱即用 。 開發者可根據應用場景自由選擇完整的 E4B 主模型獲得更強性能,也可以直接使用已經預提取好的 E2B 子模型。 在保證準確率的前提下,E2B 實現了高達 2 倍的推理速度,尤其適合邊緣設備或算力受限場景。
Mix-n-Match 定製模型。 針對不同硬體資源的限制,開發者可以通過 Mix-n-Match 方法,在 E2B 與 E4B 之間自由定製模型大小。 該方法通過靈活調整每層前饋網路的隱藏維度(如從 8192 調整到 16384),並選擇性跳過部分層,從而構建出多種不同規模的模型。
與此同時,谷歌還推出了輔助工具 MatFormer Lab,方便開發者基於多個基準測試結果(如 MMLU)快速挑選並提取出性能最優的模型配置。

谷歌表示,MatFormer 架構還為“彈性推理”奠定了基礎。 儘管這一能力尚未在本次發佈的實現中正式上線,但它的設計理念已初步成型:單個部署的 E4B 模型,未來將能在運行時動態切換 E4B 與 E2B 的推理路徑,根據當前任務類型和設備負載,實時優化性能表現與記憶體佔用。
大幅提升記憶體效率的關鍵
在最新的 Gemma 3n 模型中,谷歌引入了名為 Per-Layer Embeddings(逐層嵌入,簡稱 PLE) 的創新機制。 該機制專為端側部署而設計優化,可顯著提高模型品質,同時不會增加設備加速器(如 GPU/TPU)所需的高速記憶體佔用。
這樣一來,儘管 E2B 和 E4B 模型的總參數數量分別為 5B 和 8B,但 PLE 允許很大一部分參數(即分佈在各層的嵌入參數)在 CPU 上高效載入和計算。 這意味著只有核心 Transformer 權重(E2B 約為 2B,E4B 約為 4B)需要存儲在通常較為受限的加速器記憶體 (VRAM) 中。

大幅提升長上下文處理速度
在許多先進的端側多模態應用中,處理長序列輸入(如音訊、視頻流所生成的內容)已成為核心需求。 為此,Gemma 3n 引入了 KV Cache Sharing(鍵值緩存共用)機制,加快了長文本推理中“首個 Token”的生成速度,尤其適用於流式響應場景。
具體而言,KV Cache Sharing 對模型的 Prefill 階段進行了優化:中間層中,來自局部與全域注意力機制的中間層 Key 與 Value 會直接共用給所有上層結構。 與 Gemma 3 4B 相比,這使 Prefill 性能獲得高達 2 倍的提升。
全新視覺編碼器,提升多模態任務表現
Gemma 3n 推出了全新高效的視覺編碼器:MobileNet-V5-300M,來提升邊緣設備上的多模態任務表現。
MobileNet-V5 支援多種解析度(256×256、512×512、768×768),方便開發者根據需求平衡性能與畫質。 它在大規模多模態數據上進行訓練,擅長處理多種圖像和視頻理解任務。 吞吐率方面,其在 Google Pixel 設備上可實現每秒最高 60 幀的即時處理速度。
這一性能突破得益於多項架構創新,包括基於 MobileNet-V4 的先進模組、能高大 10 倍擴的深度金字塔架構,以及多尺度融合視覺語言模型適配器等。 相較於 Gemma 3 中未蒸餾的 SoViT,MobileNet-V5-300M 在 Google Pixel Edge TPU 上實現了最高 13 倍速度提升(量化後),參數減少 46%,記憶體佔用縮小 4 倍,同時準確率大幅提升。
支援語音辨識與語音翻譯
音訊處理方面,Gemma 3n 搭載了基於 Universal Speech Model(USM) 的先進音訊編碼器,可對每 160 毫秒的語音生成一個 token(約每秒 6 個 token),並將其作為輸入集成至語言模型中,從而提供更加細緻的語音上下文表示,這為端側應用解鎖了語音識別和語音翻譯功能。
據悉,Gemma 3n 在英語與西班牙文、法語、義大利語、葡萄牙語之間的轉換效果尤為出色。 同時,在進行語音翻譯任務時,結合“思維鏈式提示”策略,可進一步提升翻譯品質與穩定性。
參考連結:
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
大會推薦:
8 月 22~23 日的 AICon 深圳站 將以 “探索 AI 應用邊界” 為主題,聚焦 Agent、多模態、AI 產品設計等熱門方向,圍繞企業如何通過大模型降低成本、提升經營效率的實際應用案例,邀請來自頭部企業、大廠以及明星創業公司的專家,帶來一線的大模型實踐經驗和前沿洞察。 一起探索 AI 應用的更多可能,發掘 AI 驅動業務增長的新路徑!
評論