Google推出的新一代開源模型Gemma 4,在發布短短數小時內便引發開發者社區的熱烈討論。這款模型包含E2B、E4B、26B(MoE)和31B四個版本,其中E2B和E4B可在手機、樹莓派等設備上直接運行,26B和31B也僅需消費級顯卡即可支持,打破了傳統大模型對硬件的高要求。
與閉源的Gemini大模型追求“規模至上”不同,Gemma系列始終秉持“小而精”的設計理念。然而,Gemma 4的表現卻超出預期——盡管參數規模未顯著擴張,架構也未顛覆性創新,但在多項基準測試中,其性能已接近甚至超越更大規模的模型。例如,26B和31B版本在AI競技場中與國產開源模型不相上下,甚至超越了參數規模達685B的DeepSeek V3.2和397B的Qwen 3.5。
Gemma 4的突破不僅體現在性能上,更在于其設計邏輯的革新。26B版本采用MoE架構,總參數雖為26B,但實際激活規模更小,這種設計使其在成本可控的前提下,實現了接近更大模型的效果。開發者在早期測試中發現,Gemma 4在代碼生成、多模態理解等任務中表現穩定且高效,甚至在RTX 5090顯卡上部署的31B版本,以及在Mac mini(M4 16GB)上運行的26B版本,均展現出良好的實用性。
開源協議的調整是Gemma 4的另一大亮點。此前,Gemma系列的開源協議因限制較多而飽受爭議,此次Google全面采用Apache 2.0協議,允許個人和企業自由商用、再分發,徹底消除了開發者的后顧之憂。這一改變被視為Google重新布局開源生態的重要信號,也為模型在開發者中的普及奠定了基礎。
Gemma 4的野心不僅限于性能提升,更在于推動本地AI應用的落地。E2B和E4B版本專為端側設計,量化后體積可壓縮至1.5GB以內,在樹莓派5上能達到每秒100 tokens的推理速度。這種設計使AI系統得以在資源有限的設備上獨立運行,無需依賴云端或API。更關鍵的是,Google聯合高通、聯發科等硬件廠商,從芯片到系統層面進行了深度優化,確保模型在端側的流暢運行。
端側AI的潛力因Gemma 4的推出而進一步顯現。過去,手機等設備的AI功能多依賴云端模型,本地僅負責簡單推理。而Gemma 4的E2B和E4B版本支持文本、圖像、音頻的多模態輸入,甚至能參與多步Agent工作流,將更完整的AI能力直接嵌入設備。這種轉變不僅提升了隱私安全性,也為操作系統與AI的深度融合提供了可能——當模型運行在SoC的NPU上,系統級組件便可調用本地模型完成推理、生成等任務,AI將真正成為操作系統的一部分。
在Agent時代,開源模型的競爭焦點正從“性能對決”轉向“可用性比拼”。此前,meta的Llama奠定了開源生態的基礎,而中國公司憑借Qwen、DeepSeek等模型在性能、成本和落地能力上逐漸反超閉源模型。Google此次通過Gemma 4的發布,明確了其“雙線作戰”的策略:Gemini系列繼續對標GPT和Claude,守住商業化上限;Gemma系列則聚焦開發者、本地部署和生態擴展,填補開源領域的空白。
當前,Agent已成為行業焦點,開發者更關注模型的“干活”能力而非單純對話或多模態表現。盡管Gemini在能力上仍屬第一梯隊,但在開發者心智中并未成為Agent的首選底座。Gemma 4的推出恰逢其時——它不僅解決了開源協議的痛點,更通過26B、31B和E2B、E4B版本,回應了“能否將AI能力直接搬到設備上運行”的核心問題。這一步或許不夠激進,卻為開源模型在Agent時代的競爭提供了新的思路。










