滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

小模型層數(shù)好玄學：12/32/64層效果好，16/24/48/層效果糟

時間：2026-01-11 13:46:05 來源：量子位編輯：快訊 IP：北京 發(fā)表評論無障礙通道

一水發(fā)自凹非寺

量子位 | 公眾號 QbitAI

小模型身上的“秘密”這下算是被扒光了！

知名開源項目OpenEvolve作者，剛剛用一篇長文揭示了70M小模型的幾個重要發(fā)現(xiàn)：

其一，架構的重要性遠低于大家的想象。相比之下，模型“形狀”（深度-寬度比）更重要。

其二，小模型層數(shù)也存在“玄學”，12/32/64層效果好，16/24/48/層效果糟，而且最佳層數(shù)為32。

當然了，作者還解密了這一“層數(shù)玄學”的背后原因——“隱藏維度”是否大于等于512。

上述結論一出，社區(qū)里迅速刮起了一股討論之風，大家還與作者進行了各種互動：

別急，咱這就詳細看看——

發(fā)現(xiàn)小模型層數(shù)存在“玄學”

開始之前，簡單介紹下作者Asankhaya Sharma。

他最為人熟知的成就主要包括：1）在很多人還主要圍繞模型規(guī)模、參數(shù)量和訓練方法打轉時，他率先關注到了大語言模型的“推理時計算”，并以唯一作者的身份發(fā)表了一篇論文進行詳細敘述；2）開源了OptiLLM、OpenEvolve、Adaptive Classifier等一眾知名項目。

在本次研究之前，他和團隊已經(jīng)發(fā)現(xiàn)——

「50% FinePDFs+30% DCLM+20% FineWeb-Edu」是訓練小模型GPT-2的最佳數(shù)據(jù)集組合，使用標準的12層架構，其平均準確率可以達到38.50%。

于是他們想接著探討：模型架構是否和數(shù)據(jù)組成一樣重要？

標準的GPT-2使用12層和768隱藏維度。但這設計于2019年，適用于約1.24億參數(shù)。對于一個用10億tokens訓練的70M參數(shù)模型，這仍然是最優(yōu)的嗎？

為了弄清這個問題，他們著手開始了一系列實驗。

實驗第一步——確保除了模型架構，其他因素保持一致，包括模型參數(shù)、訓練數(shù)據(jù)、訓練時間和硬件配置等。

然后通過改變7種GPT-2變體的“形狀”（即深度和寬度的變化），來對比同一架構內(nèi)不同“深度-寬度配比”對性能的影響。

結果發(fā)現(xiàn)，從4層→64層，模型性能并未如預想那般，隨著層數(shù)增加或減少而平滑變化，而是清晰分裂成了兩個陣營：

“好”的層級：包括12L、32L、64L，平均得分在約38%左右；

“糟”的層級：包括16L、24L、48L，平均得分在約32%左右。

作者表示，兩個層級之間平均相差超過6個百分點，且每個層級內(nèi)部的差異極小（約0.5%），出現(xiàn)了明顯的兩極分化。

原因出在“隱藏維度”上

進一步分析表明，這一現(xiàn)象背后的關鍵因素是隱藏維度（hidden dimension）。

隱藏維度可理解為神經(jīng)網(wǎng)絡的寬度，每個詞經(jīng)由模型轉換后都會變成一個數(shù)字列表。假設“人工智能”這個詞的隱藏維度是768，它就代表這個詞在模型內(nèi)部會被表示成一個由768個數(shù)字構成的向量。

作者發(fā)現(xiàn)，模型的“隱藏維度”必須大于等于512，這是一個基礎門檻。

當模型處于12層時，其隱藏維度恰好為512，所以表現(xiàn)出色。

至于寬度更窄的32層和64層模型也能成為“優(yōu)等生”的原因，主要是它們通過特殊的深度配置進行了“補償”——

前者屬于“黃金補償點”，在寬度為384的情況下，32層這個特定的深度能最高效地彌補寬度的不足，取得了所有配置中的最高分；而后者屬于“暴力補償”，雖然寬度只有256，但憑借極深的層數(shù)強行拉高了性能。

16L、24L和48L處于“死角”，它們的隱藏維度太窄，深度又不在可以彌補的最佳位置。

由此，作者也總結出了一套規(guī)則——

模型要想性能好，必須滿足三種條件之一。1）隱藏維度大于等于512；2）正好處于32層；3）位于64層以上的極深層，以進行補償。

而且必須再次提醒，32層屬于全場最佳。當隱藏維度=384時，32層配置獲得了38.50%的最佳總體得分，甚至略勝于標準的12層設計。

進一步發(fā)現(xiàn)：“形狀”比架構選擇更重要

在確定了“32層”這個最佳深度后，作者又比較了12種不同架構的表現(xiàn)，包括LLaMA3、Qwen3、Gemma3等模型。

結果發(fā)現(xiàn)，在70M模型范圍內(nèi)，所有現(xiàn)代架構的表現(xiàn)都驚人地相似，平均差異不到2%。

自回歸模型：包括GPT-2、LLaMA3、Qwen3、Gemma3、MoE等，平均性能集中在32%到33%之間；

擴散模型：包括dLLM、Dhara等，平均性能集中在31%到32%之間。

作者表示，現(xiàn)代架構改進（RMSNorm、RoPE、GQA）是為70億以上參數(shù)的模型設計的，在70M參數(shù)的情況下無法帶來可衡量的優(yōu)勢。

完整測試結果be like：

這也意味著，對小模型來說，精心調(diào)整的“形狀”可能比選擇哪個具體的“架構變體”更重要。

意外之喜：擴散模型有自己的獨特優(yōu)勢

雖然擴散模型的平均準確率略低于自回歸模型，但研究認為這點“缺陷”完全可以通過其他方面彌補。

這主要體現(xiàn)在兩大方面：推理速度和幻覺率。

和傳統(tǒng)自回歸模型相比，擴散模型的推理速度要快上3.8倍，非常適合處理批量任務。

且在所有測試架構中，擴散模型在衡量真實性的TruthfulQA基準上得分最高（達49.27%），表明其“幻覺”更少。

作者還順帶解釋了這背后的原因，核心有三個：

雙向注意力機制允許模型在做預測時考慮完整上下文。

迭代改進使模型能夠在多個去噪步驟中“重新評估”其原始預測結果。

非自回歸生成模型或許能夠減少“滾雪球效應”，即早期幻覺累積成更大的誤差。

不過，無論是自回歸還是擴散模型，都可以用一個小技巧來增加事實準確性——

作者表示，通過在模型里加入一種叫“Canon層”的特殊結構（本質(zhì)是一種精心設計的卷積層），普通模型能讓事實性得分提升1%，擴散模型效果更明顯，能提升超過2%。

而且增加的“Canon層”僅增加了0.13%的參數(shù)開銷，性價比極高。

而更更重要的是，通過使用LLaDA 2.0論文中的Warmup-Stable-Decay方法，可以將現(xiàn)有的自回歸模型高效轉換為擴散模型。

劃重點，需要的數(shù)據(jù)量、成本、訓練時間通通僅為原來的1/10。而且作者發(fā)現(xiàn)：

WSD轉換不僅與從頭訓練的結果相當，而且在幾項基準測試上超越了后者。

推出集大成者： Dhara-70M模型

基于所有發(fā)現(xiàn)，作者和團隊最后推出了Dhara-70M這個模型。

其構建方法為：首先采用最佳的自回歸架構（LLaMA3-Canon），然后使用WSD方法將其轉換為擴散模型。

如此一來，Dhara-70M也就具備了兩者的優(yōu)勢——

既有自回歸模型的知識儲備，又有擴散模型帶來的吞吐量和事實性優(yōu)勢。

作者表示，這項工作最大的意義或許在于提醒大家——

對于資源有限的小語言模型構建者，不應盲目追求最新的架構魔法。首先應關注基礎的“深度-寬度配比”，確保模型不落入“死亡區(qū)域”；其次，如果應用場景需要高速處理且對事實準確性要求高，那么擴散模型是一個極具競爭力的選擇。

01-29

金庸武學心法啟新思！復旦團隊實現(xiàn)原子層半導體抗輻射通信在軌突破

01-29

上海AI實驗室等聯(lián)合研究：讓智能代理既“聰明”又“省錢”的破局之道

A：智能代理的效率問題是指這些AI系統(tǒng)在執(zhí)行復雜任務時成本會像滾雪球一樣越來越高。與普通大模型一問一答不同，智能代理需要記憶管理、工具使用、任務規(guī)劃等多個步驟，每一步的輸出都成為下一步的輸入，導致資源消耗呈…

01-29

博物館講解機器人功率系統(tǒng)優(yōu)化：MOSFET選型助力高效穩(wěn)定智慧導覽

本文以系統(tǒng)化、場景化的設計思維，深入剖析博物館講解機器人在功率路徑上的核心挑戰(zhàn)：如何在滿足高可靠性、低噪聲、緊湊空間布局和嚴格功耗控制的多重約束下，為電機驅動、多路功能負載管理及內(nèi)部電源轉換這三個關鍵節(jié)點，…

01-29

宸境科技發(fā)布Insight智能相機攜手地瓜機器人推動雙目感知技術規(guī)模化落地

2026年1月28日，地瓜機器人生態(tài)伙伴宸境科技發(fā)布全新LooperRobotics品牌及多款矩陣產(chǎn)品，即由Insight全自主空間智能相機、TinyNav高性能導航算法庫與RoboSpatial空間編輯工具…

01-29

2026款北京越野BJ40燃油巨幕版登場！智能座艙硬核越野，13.29萬起售

01-29

華為乾崑智駕ADS 4、HarmonySpace 5新版本官宣即將推送

01-29

極豆科技汪奕菲展望：汽車智能化加速 2026年開啟汽車Agent新時代

01-29

從女教師到200億女首富：周曉萍帶星宇股份沖擊港股“二次創(chuàng)業(yè)”

01-29

40歲陳天石財富狂飆1500億：AI芯片賽道領跑者寒武紀的創(chuàng)富傳奇

01-29

從錢學森手稿到星際學院：中國航天65年逐夢路，叩響宇宙新征程

01-29

理想調(diào)整研發(fā)架構，智駕部門將被重組

01-29

聚焦星際前沿！我國首個星際航行學院成立培育深空探索復合型人才

這所特色學院將聚焦星際推進、深空通信導航、空間科學等前沿領域，培育兼具扎實功底、戰(zhàn)略視野與家國擔當?shù)木o缺復合型人才。朱俊強院士期許，經(jīng)過接續(xù)奮斗，學院未來將成為中國科學院航空航天基礎研究高地，為國家重大任務…

01-29

從課堂到深空：星際航行學院如何為中國未來航天鋪就人才之路

翻看歷史，早在1957年，錢學森先生就提出了建設星際航行學院的設想，并在后續(xù)著作中寫道：“沒有一支多學科和人數(shù)眾多的科學技術隊伍，就不可能設想全面地開展星際航行的工作。”其中，人才儲備和培養(yǎng)是關鍵支撐，也是…

01-29

國內(nèi)首個星際航行學院成立，跨界融合實戰(zhàn)引領，培育深空探索棟梁之才

60多年前，中國科學院在錢學森、趙九章等科學家的倡議下召開了首次“星際航行座談會”，繼而成立“星際航行委員會”，為我國探索太空奠定了基礎。 “未來10至20年，是我國星際航行領域跨越式發(fā)展的關鍵窗口期，原始…

01-29

點擊查看更多 +

全站最新

DeepSeek下載量暴跌72.2%：用戶流失背后，是行業(yè)生態(tài)的深層變革

外媒盛贊問界M9：全鋁車身低風阻性價比遠超同級路虎車型

智己LS9 Hyper旗艦SUV官宣亮相，攜三大“首個”技術開啟SUV新體驗

2026款寶馬i5 M60來襲！M運動基因加持，續(xù)航570公里，性能實用兼得

一汽-大眾全新速騰S首發(fā) 燃油車存量競爭下的精細化破局新招

2026款北京越野BJ40燃油巨幕版登場！智能座艙硬核越野，13.29萬起售

熱門內(nèi)容

本欄最新

2026款北京越野BJ40燃油巨幕版登場！智能座艙硬核越野，13.29萬起售

極豆科技汪奕菲展望：汽車智能化加速 2026年開啟汽車Agent新時代

算法不應筑“回音壁”：打破定制評論區(qū)，讓網(wǎng)絡空間多元聲音共存

馬云談AI時代教育變革：重點在于培養(yǎng)孩子好奇心與創(chuàng)意提問能力

鹿明機器人：數(shù)據(jù)與硬件雙線突進，商業(yè)化落地面臨哪些硬仗？

長城魏建軍官宣：魏牌V9X攜歸元平臺亮相，AI豪華六座旗艦新標桿來了

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

小模型層數(shù)好玄學：12/32/64層效果好，16/24/48/層效果糟