實測谷歌 Gemma 3n:偏科明顯,但這才是端側大模型的答案
有一說一,最近國內的 AI 大模型圈,屬實有點安靜了。
先不談大夥萬眾矚目的 DeepSeek-R2 了,這玩意除了半真半假的爆料以外,沒有一點動靜,有種哪怕再過半年時間,也不一定能夠落地的感覺。
去年打得你來我往的 AI 四小龍,今年好像也和小貓一樣蔫了,說是大家都在悶聲鼓搗著自己的東西,但愣是什麼都沒有端出來,有種鑿壁偷光的美。
至於大廠這邊,反覆運算速度也都慢了下來,把更多的精力放到了應用上。 豆包雖然端出了 1.6 大模型,但是宣傳重點更多是 TRAE 和扣子空間;訊飛在發力 AI 教育和辦公 Agents,百度則在推進全流程 AI 修圖和資產管理,各有各的思路。
總的來說,這些應用倒是蠻實用的,就是確實沒什麼特別讓人驚豔的產品。
這在線大模型沒啥新進展,本地大模型就更是在原地踏步了,此前一直在更新的 Mistral AI 已經有小半年沒啥聲音了,移動端的端側大模型更是杳無音訊,宣傳了整整兩三年的 AI 手機,超過 90%的功能還是靠雲端實現的。
(圖源:谷歌)
谷歌尋思: 這不行啊,那我的 Pixel 系列該怎麼辦?
上周,谷歌 DeepMind 在推特上正式宣佈,發佈並開源了全新的端側多模態大模型 Gemma 3n。
谷歌表示,Gemma 3n 的發佈代表了行動裝置端 AI 的重大進步,它為手機、平板、筆記型電腦等端側設備帶來了強大的多模態功能,可以讓用戶體驗到過去只有雲端先進模型上才能體驗的高效處理性能。
又來個以小搏大嗎? 有點意思。
為了看看這玩意的真實成色,小雷也去下載了谷歌發佈的最新模型進行測試,接下來就給大家說說裡面的亮點吧。
谷歌要“以小搏大”
首先,我們來解答兩個問題:
首先,什麼是 Gemma 3n?
Gemma 3n 是谷歌利用 MatFormer 架構打造的輕量化端側大模型,藉由嵌套式結構實現了低記憶體消耗設計,目前官方一共推出了 5B(E2B)和 8B(E4B)兩種型號,但通過架構創新,其 VRAM 佔用與 2B 和 4B 相當,最低只要 2GB。
(圖源:Google)
其次,Gemma 3n 能做什麼?
不同於常規的文本剪裁模型,Gemma 3n 原生支援圖像、音視頻等多種輸入模態,不僅可以實現自動語音辨識(ASR)和自動語音翻譯(AST),甚至可以完成各種圖像和視頻理解任務。
(圖源:Google)
原生的多模態、多語言設計,確實非常適合移動端側設備。
最後,我要怎樣做,才能用上 Gemma 3n 呢?
放在六個月前,想在手機上部署端側大模型其實是一件異常複雜的事情,往往還要藉助 Linux 虛擬機的説明才能實現,雷科技曾經還為此推出過一篇教程,因此大家會有這樣的疑問也是很合理的。
但是現在,就沒有這個必要了。
(圖源:Google)
Google 在上個月低調上線了一款新應用,名為 Google AI Edge Gallery,支援使用者在手機上直接運行來自 Hugging Face 平臺的開源 AI 模型,這是 Google 首次嘗試將羽量 AI 推理帶入本地設備。
目前該應用已在 Android 平臺開放下載,感興趣的讀者可以直接前往 Github 進行體驗。 在完成大模型載入后,使用者就可以利用這款應用實現對話式 AI、圖像理解以及提示詞實驗室功能,甚至可以導入自定義 LiteRT 格式模型。
無需聯網,直接調用手機本地算力完成任務,就是這麼簡單。
實測:確實更適合行動裝置
接下來,就輪到萬眾期待的測試環節了。
如圖所示,谷歌為這款應用默認準備了四款模型,其中有自家的 Gemma 系列,也有來自通義千問的 Qwen 系列,我們選擇了目前最強的 Gemma 3n-4B 和通義千問的 Qwen2.5-1.5B 以及額外部署的 Qwen3-4B GGUF 進行測試。
首先是經典的草莓問題:
Q:Strawberry 一詞中有多少個字母“r”?
這一題看起來簡單,卻實實在在難倒過諸多 AI 大模型。
實測下來,沒有深度思考能力的 Gemma 3n-4B 和 Qwen2.5-1.5B 依然會回答“2 個”,有深度思考能力的 Qwen3-4B GGUF 則能夠給出正確答案“3 個”,只是莫名其妙的反復思考讓它整整生成了兩分半鍾,還挺浪費時間的。
(圖源:雷科技,從左到右:Qwen2.5、Gemma 3n、Qwen3)
從結果來看,小參數確實會顯著降低模型的邏輯思考能力,深度思考功能可以在一定程度上降低 AI 幻覺產生的可能性,但也因此會增加生成所需的時間。
然後是一道比較簡單的誤導問題:
Q:“種豆南山下”的前一句是什麼?
事實上,這是出自陶淵明《歸園田居·其三》的首句詩,並沒有前一句,正好能看看這幾款小參數模型是否存在為了回答問題編造數據的現象。
有趣的是,這次只有 Qwen2.5-1.5B 給出了原詩句,但是沒有給出否定的答案;而 Qwen3-4B GGUF 根本就是答非所問,Gemma 3n-4B 則編出了根本不存在的詩句,甚至不符合古詩詞韻律。
(圖源:雷科技)
然後是一道地理常識問題:
Q:有一位學者在野外搭帳篷,突然遇到了一隻熊,這時候他就非常驚慌地逃跑,先是向南跑了 10 公里,又向東跑了 10 公里,最後還向北跑了 10 公里,這時候他驚奇地發現自己回到了原先搭帳篷的位置。 請問:這位學者遇到的那頭熊是什麼顏色?
這個問題主要測試模型對特殊地理位置和現象的理解,滿足學者運動軌跡的地方只能是北極,因此這頭熊自然是白色的北極熊。
結果呢,Qwen2.5-1.5B 在進行了一段毫無邏輯的分析后,給出了錯誤的答案;Gemma 3n-4B 和 Qwen3-4B GGUF 則能夠順利給出正確的答案,需要注意 Qwen3-4B GGUF 因為思考消耗 token 太多導致答案沒有完全生成的現象,這在整段測試中都很常見。
(圖源:雷科技)
然後是一個簡單的文本處理任務 。
具體來說,我這邊提供了600字左右的文章引言,希望他們能夠給出對應的文章總結。
其中,Gemma 3n-4B 和 Qwen3-4B GGUF 都算是能完成任務的,不過因為 Gemma 3n-4B 原始語言是英文,因此給出的總結也是英文的,而 Qwen3-4B GGUF 則能夠提供中文的文章總結。
(圖源:雷科技)
至於參數最小的 Qwen2.5-1.5B,根本就給不出答覆。
從以上四輪測試來看 ,在文本處理、邏輯推理能力上,Gemma 3n-4B 和 Qwen3-4B GGUF 其實相差無幾,但是在生成速度、回復成功率上其實是領先不少的,深度思考顯然是不適合本地模型的。
不過 Gemma 3n 並不是單純的文本大模型,人家可是罕有的小參數多模態大模型。
雖然語音辨識目前 Google AI Edge Gallery 調用不了,但是圖像識別人家還是有準備的,點擊“Ask Image”選項,就可以通過隨手拍攝或者上傳照片的方式,向 Gemma 3n 提問。
(圖源:雷科技)
實測下來,目前的 Gemma 3n 對於動漫角色可謂一竅不通,諸如花卉識別這類應用也不精準,只有比較常見的食物、硬體這類可以識別出來,而且對圖片里的元素識別其實並不算精準。
但最起碼,Gemma 3n 確實實現了移動端側的多模態設計。
偏科明顯,但未來可期
好了,經過我這幾天的輪番折騰,是時候給谷歌這個 Gemma 3n 下個結論了。
總的來說,這玩意兒給我的感覺是“偏科明顯,但未來可期”。
在最基礎的文本問答和邏輯能力上,它的表現只能算中規中矩,部分邏輯測試中的表現顯然不如支援深度思考的 Qwen 3-4B,但是比起目前手機上常見的 Qwen2.5-1.5B 還是有明顯提升的。
但它的優點也很突出,那就是快,Gemma 3n-4B 的回應速度明顯要比 Qwen 3-4B 快很多,沒有深度思考就意味著它沒那麼吃性能,跑起來顯然更穩定,基本能夠做到 100%的生成回應率。
(圖源:Google)
至於結果對不對... 那是模型能力的問題。
至於它的核心賣點——離線圖像識別,能力確實有,但也就停留在“基礎”層面,識別個物體、提取個文字還行,想讓它理解複雜場景就有點難為它了。 而且,原生英文的底子讓它處理複雜中文時偶爾會冒出點 bug,這點得注意。
總的來說,Gemma 3n 並沒有帶來那種顛覆級的體驗,更像是在性能和多功能之間做出的一個謹慎妥協。
這大概就是端側小模型現階段特有的弊病吧: 什麼都會一點,但離真正的“全能”還有一段路要走。