一水 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
小模型身上的“秘密”這下算是被扒光了!
知名開源項目OpenEvolve作者,剛剛用一篇長文揭示了70M小模型的幾個重要發(fā)現(xiàn):
其一,架構的重要性遠低于大家的想象。相比之下,模型“形狀”(深度-寬度比)更重要。
其二,小模型層數(shù)也存在“玄學”,12/32/64層效果好,16/24/48/層效果糟,而且最佳層數(shù)為32。
當然了,作者還解密了這一“層數(shù)玄學”的背后原因——“隱藏維度”是否大于等于512。
上述結論一出,社區(qū)里迅速刮起了一股討論之風,大家還與作者進行了各種互動:
別急,咱這就詳細看看——
發(fā)現(xiàn)小模型層數(shù)存在“玄學”
開始之前,簡單介紹下作者Asankhaya Sharma。
他最為人熟知的成就主要包括:1)在很多人還主要圍繞模型規(guī)模、參數(shù)量和訓練方法打轉時,他率先關注到了大語言模型的“推理時計算”,并以唯一作者的身份發(fā)表了一篇論文進行詳細敘述;2)開源了OptiLLM、OpenEvolve、Adaptive Classifier等一眾知名項目。
在本次研究之前,他和團隊已經(jīng)發(fā)現(xiàn)——
「50% FinePDFs+30% DCLM+20% FineWeb-Edu」是訓練小模型GPT-2的最佳數(shù)據(jù)集組合,使用標準的12層架構,其平均準確率可以達到38.50%。
于是他們想接著探討:模型架構是否和數(shù)據(jù)組成一樣重要?
標準的GPT-2使用12層和768隱藏維度。但這設計于2019年,適用于約1.24億參數(shù)。對于一個用10億tokens訓練的70M參數(shù)模型,這仍然是最優(yōu)的嗎?
為了弄清這個問題,他們著手開始了一系列實驗。
實驗第一步——確保除了模型架構,其他因素保持一致,包括模型參數(shù)、訓練數(shù)據(jù)、訓練時間和硬件配置等。
然后通過改變7種GPT-2變體的“形狀”(即深度和寬度的變化),來對比同一架構內(nèi)不同“深度-寬度配比”對性能的影響。
結果發(fā)現(xiàn),從4層→64層,模型性能并未如預想那般,隨著層數(shù)增加或減少而平滑變化,而是清晰分裂成了兩個陣營:
“好”的層級:包括12L、32L、64L,平均得分在約38%左右;
“糟”的層級:包括16L、24L、48L,平均得分在約32%左右。
作者表示,兩個層級之間平均相差超過6個百分點,且每個層級內(nèi)部的差異極小(約0.5%),出現(xiàn)了明顯的兩極分化。
原因出在“隱藏維度”上
進一步分析表明,這一現(xiàn)象背后的關鍵因素是隱藏維度(hidden dimension)。
隱藏維度可理解為神經(jīng)網(wǎng)絡的寬度,每個詞經(jīng)由模型轉換后都會變成一個數(shù)字列表。假設“人工智能”這個詞的隱藏維度是768,它就代表這個詞在模型內(nèi)部會被表示成一個由768個數(shù)字構成的向量。
作者發(fā)現(xiàn),模型的“隱藏維度”必須大于等于512,這是一個基礎門檻。
當模型處于12層時,其隱藏維度恰好為512,所以表現(xiàn)出色。
至于寬度更窄的32層和64層模型也能成為“優(yōu)等生”的原因,主要是它們通過特殊的深度配置進行了“補償”——
前者屬于“黃金補償點”,在寬度為384的情況下,32層這個特定的深度能最高效地彌補寬度的不足,取得了所有配置中的最高分;而后者屬于“暴力補償”,雖然寬度只有256,但憑借極深的層數(shù)強行拉高了性能。
16L、24L和48L處于“死角”,它們的隱藏維度太窄,深度又不在可以彌補的最佳位置。
由此,作者也總結出了一套規(guī)則——
模型要想性能好,必須滿足三種條件之一。1)隱藏維度大于等于512;2)正好處于32層;3)位于64層以上的極深層,以進行補償。
而且必須再次提醒,32層屬于全場最佳。當隱藏維度=384時,32層配置獲得了38.50%的最佳總體得分,甚至略勝于標準的12層設計。
進一步發(fā)現(xiàn):“形狀”比架構選擇更重要
在確定了“32層”這個最佳深度后,作者又比較了12種不同架構的表現(xiàn),包括LLaMA3、Qwen3、Gemma3等模型。
結果發(fā)現(xiàn),在70M模型范圍內(nèi),所有現(xiàn)代架構的表現(xiàn)都驚人地相似,平均差異不到2%。
自回歸模型:包括GPT-2、LLaMA3、Qwen3、Gemma3、MoE等,平均性能集中在32%到33%之間;
擴散模型:包括dLLM、Dhara等,平均性能集中在31%到32%之間。
作者表示,現(xiàn)代架構改進(RMSNorm、RoPE、GQA)是為70億以上參數(shù)的模型設計的,在70M參數(shù)的情況下無法帶來可衡量的優(yōu)勢。
完整測試結果be like:
這也意味著,對小模型來說,精心調(diào)整的“形狀”可能比選擇哪個具體的“架構變體”更重要。
意外之喜:擴散模型有自己的獨特優(yōu)勢
雖然擴散模型的平均準確率略低于自回歸模型,但研究認為這點“缺陷”完全可以通過其他方面彌補。
這主要體現(xiàn)在兩大方面:推理速度和幻覺率。
和傳統(tǒng)自回歸模型相比,擴散模型的推理速度要快上3.8倍,非常適合處理批量任務。
且在所有測試架構中,擴散模型在衡量真實性的TruthfulQA基準上得分最高(達49.27%),表明其“幻覺”更少。
作者還順帶解釋了這背后的原因,核心有三個:
雙向注意力機制允許模型在做預測時考慮完整上下文。
迭代改進使模型能夠在多個去噪步驟中“重新評估”其原始預測結果。
非自回歸生成模型或許能夠減少“滾雪球效應”,即早期幻覺累積成更大的誤差。
不過,無論是自回歸還是擴散模型,都可以用一個小技巧來增加事實準確性——
作者表示,通過在模型里加入一種叫“Canon層”的特殊結構(本質(zhì)是一種精心設計的卷積層),普通模型能讓事實性得分提升1%,擴散模型效果更明顯,能提升超過2%。
而且增加的“Canon層”僅增加了0.13%的參數(shù)開銷,性價比極高。
而更更重要的是,通過使用LLaDA 2.0論文中的Warmup-Stable-Decay方法,可以將現(xiàn)有的自回歸模型高效轉換為擴散模型。
劃重點,需要的數(shù)據(jù)量、成本、訓練時間通通僅為原來的1/10。而且作者發(fā)現(xiàn):
WSD轉換不僅與從頭訓練的結果相當,而且在幾項基準測試上超越了后者。
推出集大成者: Dhara-70M模型
基于所有發(fā)現(xiàn),作者和團隊最后推出了Dhara-70M這個模型。
其構建方法為:首先采用最佳的自回歸架構(LLaMA3-Canon),然后使用WSD方法將其轉換為擴散模型。
如此一來,Dhara-70M也就具備了兩者的優(yōu)勢——
既有自回歸模型的知識儲備,又有擴散模型帶來的吞吐量和事實性優(yōu)勢。
作者表示,這項工作最大的意義或許在于提醒大家——
對于資源有限的小語言模型構建者,不應盲目追求最新的架構魔法。首先應關注基礎的“深度-寬度配比”,確保模型不落入“死亡區(qū)域”;其次,如果應用場景需要高速處理且對事實準確性要求高,那么擴散模型是一個極具競爭力的選擇。










