人工智能領域迎來一項突破性進展——英偉達研究團隊提出的多規格彈性模型框架Nemotron Elastic,通過創新技術實現單次訓練生成多個不同參數規模的子模型,為AI模型開發效率與部署靈活性樹立新標桿。這項成果已在學術平臺公開,其核心思想是通過"套娃式"架構設計,讓120億參數的主模型同時兼容90億和60億參數的變體,在數學推理、代碼生成等復雜任務中保持性能的同時,將訓練成本降低至傳統方法的1/360。
傳統模型開發模式如同定制三套不同尺寸的西裝,需分別采購面料、裁剪縫制,既耗時又昂貴。Nemotron Elastic則通過參數共享機制,在單一架構中嵌套多個子模型,如同俄羅斯套娃般實現層級激活。研究團隊開發的智能路由系統扮演關鍵角色,該系統通過兩層全連接網絡動態判斷任務需求,自動選擇激活120億參數的全量模型、90億參數的精簡版或60億參數的輕量版,整個過程無需額外調優,部署時內存占用較傳統方案減少43%。
混合架構創新是該技術的另一突破。研究團隊將擅長長序列處理的Mamba架構與擅長精準推理的注意力機制深度融合,通過群組感知壓縮技術維持兩種架構的完整性。在處理49152個token的超長文本時,模型展現出強大的上下文理解能力,在AIME-2025數學競賽基準測試中,60億參數子模型的得分從56.88提升至68.13,證明輕量模型同樣具備復雜推理潛力。這種架構設計使模型既能像電動車般高效處理長序列,又能如燃油車般精準執行復雜計算。
訓練策略的革新同樣值得關注。研究團隊采用兩階段訓練法:初期使用8192個token的短文本進行基礎能力訓練,確保各規格模型掌握核心技能;后期轉向超長文本訓練,針對120億、90億、60億參數模型分別分配50%、30%、20%的計算資源。這種動態資源分配策略解決了大模型在長文本訓練中性能退化的問題,配合凍結教師模型的知識蒸餾技術,使子模型在繼承主模型推理能力的同時,形成各自的優勢領域。
實驗數據顯示,該技術訓練120億/90億/60億參數模型族僅消耗1100億訓練令牌,較傳統方法節約99.7%的計算資源。在MATH-500數學基準測試中,彈性訓練的120億模型取得97.70分,超越原始模型的97.50分;90億參數子模型在多數任務中達到甚至超越同規模專用模型表現。內存效率方面,單模型提供三規格服務僅需24GB內存,較傳統部署方案節省43%空間,為邊緣設備部署大型語言模型開辟新路徑。
技術細節層面,路由系統采用Gumbel-Softmax技術實現離散選擇的連續優化,通過溫度參數控制訓練探索與利用的平衡。動態掩碼技術則像智能調光系統,可針對嵌入層、注意力頭、前饋網絡等組件實施差異化壓縮,支持同構與異構兩種配置模式。在長上下文訓練階段,模型通過49152個token的輸入學習處理完整推理鏈,這種訓練方式使60億參數模型在GSM8K數學推理基準上的表現提升27%,證明輕量模型同樣具備深度思考能力。
該技術的開源將產生深遠影響。中小企業現在可用單次訓練獲得覆蓋云端到邊緣設備的完整模型族,降低AI應用門檻;研究人員得以探索混合架構的彈性化潛力,推動Mamba與Transformer等不同技術路線的融合創新。在環保層面,360倍的訓練成本降低意味著相應規模的能源節約,為AI技術可持續發展提供示范。隨著社區開發者基于該框架展開二次創新,預計將涌現出更多適應不同場景的彈性模型解決方案。











