岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

小模型層數(shù)好玄學:12/32/64層效果好,16/24/48/層效果糟

   時間:2026-01-11 13:46:05 來源:量子位編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

一水 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

小模型身上的“秘密”這下算是被扒光了!

知名開源項目OpenEvolve作者,剛剛用一篇長文揭示了70M小模型的幾個重要發(fā)現(xiàn):

其一,架構的重要性遠低于大家的想象。相比之下,模型“形狀”(深度-寬度比)更重要。

其二,小模型層數(shù)也存在“玄學”,12/32/64層效果好,16/24/48/層效果糟,而且最佳層數(shù)為32。

當然了,作者還解密了這一“層數(shù)玄學”的背后原因——“隱藏維度”是否大于等于512。

上述結論一出,社區(qū)里迅速刮起了一股討論之風,大家還與作者進行了各種互動:

別急,咱這就詳細看看——

發(fā)現(xiàn)小模型層數(shù)存在“玄學”

開始之前,簡單介紹下作者Asankhaya Sharma。

他最為人熟知的成就主要包括:1)在很多人還主要圍繞模型規(guī)模、參數(shù)量和訓練方法打轉時,他率先關注到了大語言模型的“推理時計算”,并以唯一作者的身份發(fā)表了一篇論文進行詳細敘述;2)開源了OptiLLM、OpenEvolve、Adaptive Classifier等一眾知名項目。

在本次研究之前,他和團隊已經(jīng)發(fā)現(xiàn)——

「50% FinePDFs+30% DCLM+20% FineWeb-Edu」是訓練小模型GPT-2的最佳數(shù)據(jù)集組合,使用標準的12層架構,其平均準確率可以達到38.50%。

于是他們想接著探討:模型架構是否和數(shù)據(jù)組成一樣重要?

標準的GPT-2使用12層和768隱藏維度。但這設計于2019年,適用于約1.24億參數(shù)。對于一個用10億tokens訓練的70M參數(shù)模型,這仍然是最優(yōu)的嗎?

為了弄清這個問題,他們著手開始了一系列實驗。

實驗第一步——確保除了模型架構,其他因素保持一致,包括模型參數(shù)、訓練數(shù)據(jù)、訓練時間和硬件配置等。

然后通過改變7種GPT-2變體的“形狀”(即深度和寬度的變化),來對比同一架構內(nèi)不同“深度-寬度配比”對性能的影響。

結果發(fā)現(xiàn),從4層→64層,模型性能并未如預想那般,隨著層數(shù)增加或減少而平滑變化,而是清晰分裂成了兩個陣營:

“好”的層級:包括12L、32L、64L,平均得分在約38%左右;

“糟”的層級:包括16L、24L、48L,平均得分在約32%左右。

作者表示,兩個層級之間平均相差超過6個百分點,且每個層級內(nèi)部的差異極小(約0.5%),出現(xiàn)了明顯的兩極分化。

原因出在“隱藏維度”上

進一步分析表明,這一現(xiàn)象背后的關鍵因素是隱藏維度(hidden dimension)。

隱藏維度可理解為神經(jīng)網(wǎng)絡的寬度,每個詞經(jīng)由模型轉換后都會變成一個數(shù)字列表。假設“人工智能”這個詞的隱藏維度是768,它就代表這個詞在模型內(nèi)部會被表示成一個由768個數(shù)字構成的向量。

作者發(fā)現(xiàn),模型的“隱藏維度”必須大于等于512,這是一個基礎門檻。

當模型處于12層時,其隱藏維度恰好為512,所以表現(xiàn)出色。

至于寬度更窄的32層和64層模型也能成為“優(yōu)等生”的原因,主要是它們通過特殊的深度配置進行了“補償”——

前者屬于“黃金補償點”,在寬度為384的情況下,32層這個特定的深度能最高效地彌補寬度的不足,取得了所有配置中的最高分;而后者屬于“暴力補償”,雖然寬度只有256,但憑借極深的層數(shù)強行拉高了性能。

16L、24L和48L處于“死角”,它們的隱藏維度太窄,深度又不在可以彌補的最佳位置。

由此,作者也總結出了一套規(guī)則——

模型要想性能好,必須滿足三種條件之一。1)隱藏維度大于等于512;2)正好處于32層;3)位于64層以上的極深層,以進行補償。

而且必須再次提醒,32層屬于全場最佳。當隱藏維度=384時,32層配置獲得了38.50%的最佳總體得分,甚至略勝于標準的12層設計。

進一步發(fā)現(xiàn):“形狀”比架構選擇更重要

在確定了“32層”這個最佳深度后,作者又比較了12種不同架構的表現(xiàn),包括LLaMA3、Qwen3、Gemma3等模型。

結果發(fā)現(xiàn),在70M模型范圍內(nèi),所有現(xiàn)代架構的表現(xiàn)都驚人地相似,平均差異不到2%。

自回歸模型:包括GPT-2、LLaMA3、Qwen3、Gemma3、MoE等,平均性能集中在32%到33%之間;

擴散模型:包括dLLM、Dhara等,平均性能集中在31%到32%之間。

作者表示,現(xiàn)代架構改進(RMSNorm、RoPE、GQA)是為70億以上參數(shù)的模型設計的,在70M參數(shù)的情況下無法帶來可衡量的優(yōu)勢。

完整測試結果be like:

這也意味著,對小模型來說,精心調(diào)整的“形狀”可能比選擇哪個具體的“架構變體”更重要。

意外之喜:擴散模型有自己的獨特優(yōu)勢

雖然擴散模型的平均準確率略低于自回歸模型,但研究認為這點“缺陷”完全可以通過其他方面彌補。

這主要體現(xiàn)在兩大方面:推理速度和幻覺率。

和傳統(tǒng)自回歸模型相比,擴散模型的推理速度要快上3.8倍,非常適合處理批量任務。

且在所有測試架構中,擴散模型在衡量真實性的TruthfulQA基準上得分最高(達49.27%),表明其“幻覺”更少。

作者還順帶解釋了這背后的原因,核心有三個:

雙向注意力機制允許模型在做預測時考慮完整上下文。

迭代改進使模型能夠在多個去噪步驟中“重新評估”其原始預測結果。

非自回歸生成模型或許能夠減少“滾雪球效應”,即早期幻覺累積成更大的誤差。

不過,無論是自回歸還是擴散模型,都可以用一個小技巧來增加事實準確性——

作者表示,通過在模型里加入一種叫“Canon層”的特殊結構(本質(zhì)是一種精心設計的卷積層),普通模型能讓事實性得分提升1%,擴散模型效果更明顯,能提升超過2%。

而且增加的“Canon層”僅增加了0.13%的參數(shù)開銷,性價比極高。

而更更重要的是,通過使用LLaDA 2.0論文中的Warmup-Stable-Decay方法,可以將現(xiàn)有的自回歸模型高效轉換為擴散模型。

劃重點,需要的數(shù)據(jù)量、成本、訓練時間通通僅為原來的1/10。而且作者發(fā)現(xiàn):

WSD轉換不僅與從頭訓練的結果相當,而且在幾項基準測試上超越了后者。

推出集大成者: Dhara-70M模型

基于所有發(fā)現(xiàn),作者和團隊最后推出了Dhara-70M這個模型。

其構建方法為:首先采用最佳的自回歸架構(LLaMA3-Canon),然后使用WSD方法將其轉換為擴散模型。

如此一來,Dhara-70M也就具備了兩者的優(yōu)勢——

既有自回歸模型的知識儲備,又有擴散模型帶來的吞吐量和事實性優(yōu)勢。

作者表示,這項工作最大的意義或許在于提醒大家——

對于資源有限的小語言模型構建者,不應盲目追求最新的架構魔法。首先應關注基礎的“深度-寬度配比”,確保模型不落入“死亡區(qū)域”;其次,如果應用場景需要高速處理且對事實準確性要求高,那么擴散模型是一個極具競爭力的選擇。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 日本黄色免费视频 | 欧美xxxooo| 在线观看第一页 | 国产午夜视频在线观看 | 色偷偷超碰 | 日韩成人免费在线观看 | 一起操在线播放 | 国产二区精品 | 免费黄色高清视频 | 午夜精品久久久久99蜜桃最新版 | 国产亚洲视频在线 | 欧美黄色一级网站 | 成人黄色三级视频 | 欧美一级影院 | 精品久久a | 麻豆精品国产免费 | 欧美日韩aaa | 先锋影音av在线 | 亚洲毛片在线观看 | 成人午夜视频免费看 | 国产又粗又猛又黄视频 | 久久伦理片| 久久在草 | 免费日本黄色片 | 99热在线只有精品 | 黄色在线小视频 | 四虎影院成人 | 国产福利社 | 小萝莉末成年一区二区 | 久久成人在线视频 | 国产日韩av在线播放 | 欧美成人精品激情在线观看 | 超碰在线中文字幕 | 精品国产一区二区三区久久狼黑人 | 在线观看h视频 | 国精产品久拍自产在线网站 | 婷婷色一区二区三区 | 一级片免费观看 | 久操精品在线 | 在线观看国产成人 | 国产一区二区三区四区视频 |