滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

英偉達新突破：單一AI模型“變身”多規格，訓練成本直降360倍

時間：2026-01-17 02:11:35 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

人工智能領域迎來一項突破性進展——英偉達研究團隊提出的多規格彈性模型框架Nemotron Elastic，通過創新技術實現單次訓練生成多個不同參數規模的子模型，為AI模型開發效率與部署靈活性樹立新標桿。這項成果已在學術平臺公開，其核心思想是通過"套娃式"架構設計，讓120億參數的主模型同時兼容90億和60億參數的變體，在數學推理、代碼生成等復雜任務中保持性能的同時，將訓練成本降低至傳統方法的1/360。

傳統模型開發模式如同定制三套不同尺寸的西裝，需分別采購面料、裁剪縫制，既耗時又昂貴。Nemotron Elastic則通過參數共享機制，在單一架構中嵌套多個子模型，如同俄羅斯套娃般實現層級激活。研究團隊開發的智能路由系統扮演關鍵角色，該系統通過兩層全連接網絡動態判斷任務需求，自動選擇激活120億參數的全量模型、90億參數的精簡版或60億參數的輕量版，整個過程無需額外調優，部署時內存占用較傳統方案減少43%。

混合架構創新是該技術的另一突破。研究團隊將擅長長序列處理的Mamba架構與擅長精準推理的注意力機制深度融合，通過群組感知壓縮技術維持兩種架構的完整性。在處理49152個token的超長文本時，模型展現出強大的上下文理解能力，在AIME-2025數學競賽基準測試中，60億參數子模型的得分從56.88提升至68.13，證明輕量模型同樣具備復雜推理潛力。這種架構設計使模型既能像電動車般高效處理長序列，又能如燃油車般精準執行復雜計算。

訓練策略的革新同樣值得關注。研究團隊采用兩階段訓練法：初期使用8192個token的短文本進行基礎能力訓練，確保各規格模型掌握核心技能；后期轉向超長文本訓練，針對120億、90億、60億參數模型分別分配50%、30%、20%的計算資源。這種動態資源分配策略解決了大模型在長文本訓練中性能退化的問題，配合凍結教師模型的知識蒸餾技術，使子模型在繼承主模型推理能力的同時，形成各自的優勢領域。

實驗數據顯示，該技術訓練120億/90億/60億參數模型族僅消耗1100億訓練令牌，較傳統方法節約99.7%的計算資源。在MATH-500數學基準測試中，彈性訓練的120億模型取得97.70分，超越原始模型的97.50分；90億參數子模型在多數任務中達到甚至超越同規模專用模型表現。內存效率方面，單模型提供三規格服務僅需24GB內存，較傳統部署方案節省43%空間，為邊緣設備部署大型語言模型開辟新路徑。

技術細節層面，路由系統采用Gumbel-Softmax技術實現離散選擇的連續優化，通過溫度參數控制訓練探索與利用的平衡。動態掩碼技術則像智能調光系統，可針對嵌入層、注意力頭、前饋網絡等組件實施差異化壓縮，支持同構與異構兩種配置模式。在長上下文訓練階段，模型通過49152個token的輸入學習處理完整推理鏈，這種訓練方式使60億參數模型在GSM8K數學推理基準上的表現提升27%，證明輕量模型同樣具備深度思考能力。

該技術的開源將產生深遠影響。中小企業現在可用單次訓練獲得覆蓋云端到邊緣設備的完整模型族，降低AI應用門檻；研究人員得以探索混合架構的彈性化潛力，推動Mamba與Transformer等不同技術路線的融合創新。在環保層面，360倍的訓練成本降低意味著相應規模的能源節約，為AI技術可持續發展提供示范。隨著社區開發者基于該框架展開二次創新，預計將涌現出更多適應不同場景的彈性模型解決方案。

IT之家 2 月 10 日消息，據《連線》雜志今天報道，一份昨天提交的法院文件顯示，OpenAI 將不會在其首款 AI硬件產品使用“io”品牌名。Welinder 還在文件表示，公司尚未對這款設備制造包裝或…

02-11

長城魏牌V9X來襲！近5米3大身軀，2.0T插混續航超千公里，實力幾何？

02-11

央視聚焦東風汽車：以創新智造引領，驅動中國汽車產業穩健邁向新征程

02-11

安防雙雄十年暗戰升級：華睿科技IPO沖刺，海康機器人能否穩守王座？

02-11

閑置平臺藏玄機：AI 在非標市場落地生根，成消費走向“透視鏡”

02-11

智譜GLM-5或為海外神秘大模型復用DS架構股價飆升市值達1500億港幣

02-11

消息稱OpenAI首款硬件產品放棄“io”品牌名

02-11

股價已漲200% 海外神秘大模型幾乎確定為GLM-5：復用DS架構

02-11

彭博社記者透露：WWDC 2026將發布iOS 27 側重性能提升與Siri個性化改進

02-11

壁仞科技率先完成MOSS-TTS模型高性能推理部署領跑國產算力適配

02-11

無問芯穹攜手清華、原力靈機共推具身智能開發新基建

02-11

云深處科技斬獲浙江科技進步獎一等獎，四足機器人技術引領產業新突破

02-11

江蘇率先發力！以知識產權為翼助力人工智能產業“振翅高飛”

02-11

千問App免單活動掀熱潮：AI購物助力河南線下消費，訂單量顯著攀升

02-11

AI浪潮下，代碼與技能沉沒，唯有“生長”之物筑就未來護城河

02-11

點擊查看更多 +

全站最新

小米汽車APP商城春節持續運營！車主可領消費券，部分服務臨時調整

雷軍回應小米汽車美國路測傳聞：目前暫無進入計劃，或為同行對標車

新一代小米SU7升級亮點多：電池續航超900km 電機底盤智能駕駛全提升

全新小米SU7續航大升級！多版本覆蓋超600km，Max版直逼902km

臨近春節雷軍忙直播，小米YU7 GT千匹馬力SUV現身紐北引熱議

長安啟源A05：外觀利落配置實在，家用混動均衡之選

熱門內容

本欄最新

長城魏牌V9X來襲！近5米3大身軀，2.0T插混續航超千公里，實力幾何？

央視聚焦東風汽車：以創新智造引領，驅動中國汽車產業穩健邁向新征程

閔行新春沙龍：網絡創作者共探優質內容創作，共繪閔行發展新畫卷

理想汽車新突破：全新L9馬赫100雙芯片有效算力遠超英偉達Thor U

問界星光之夜余承東解讀品牌命名，大模型AI將升級老車主，銷量目標再沖刺

長城補齊產品短板！魏牌V9X官圖曝光，攜新技術入局綠牌全尺寸SUV賽道

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

英偉達新突破：單一AI模型“變身”多規格，訓練成本直降360倍