3 月 12 日消息,英偉達(dá)公司昨日(3 月 11 日)發(fā)布博文,宣布推出 Nemotron 3 Super 開(kāi)源大模型,是其迄今為止最強(qiáng)大的開(kāi)源權(quán)重 AI 模型。
注:開(kāi)源權(quán)重模型(Open-weight AI models)是指將決定 AI 模型行為的關(guān)鍵參數(shù)(權(quán)重)向公眾免費(fèi)開(kāi)放的模型。與完全閉源的模型(如 GPT-4)不同,開(kāi)發(fā)者可以下載并在自己的設(shè)備上運(yùn)行或微調(diào)這些模型。
Nemotron 3 Super 模型擁有 1200 億參數(shù),采用混合專家(MoE)架構(gòu)(推理時(shí)僅激活 120 億),專為大規(guī)模運(yùn)行復(fù)雜智能體(Agentic AI)系統(tǒng)設(shè)計(jì)。
該模型結(jié)合了先進(jìn)的推理能力,能夠?yàn)樽灾髦悄荏w高精度地完成任務(wù)。Perplexity、Palantir 和西門子等行業(yè)巨頭目前已將其應(yīng)用于搜索、軟件開(kāi)發(fā)、電信和半導(dǎo)體設(shè)計(jì)等核心工作流中。
隨著企業(yè)將 AI 應(yīng)用從聊天機(jī)器人轉(zhuǎn)向多智能體,往往面臨兩大瓶頸:“上下文爆炸”與“推理稅”。多智能體交互會(huì)產(chǎn)生最多 15 倍的 Token 量,導(dǎo)致成本飆升和目標(biāo)偏移;同時(shí),復(fù)雜智能體每步都需要推理,讓系統(tǒng)變得昂貴且遲鈍。
Nemotron 3 Super 為解決這些問(wèn)題,配備了 100 萬(wàn) Token 的上下文窗口。這讓智能體能夠?qū)⑼暾墓ぷ髁鳡顟B(tài)保留在內(nèi)存中,從而防止目標(biāo)偏移,并大幅降低多步推理的成本。
在架構(gòu)與性能方面,該模型采用了混合專家(MoE)架構(gòu),將吞吐量提升了 5 倍,準(zhǔn)確率比前代翻倍。具體而言,其 Mamba 層使內(nèi)存和計(jì)算效率提高了 4 倍,而 Transformer 層則負(fù)責(zé)高級(jí)推理。
模型引入了“潛在 MoE(Latent MoE)”新技術(shù),以單個(gè)專家的計(jì)算成本激活四個(gè)專家;并支持多 Token 預(yù)測(cè),讓推理速度提升 3 倍。在英偉達(dá) Blackwell 平臺(tái)上,該模型以 NVFP4 精度運(yùn)行,相比 Hopper 架構(gòu)上的 FP8,內(nèi)存需求更低且推理速度快 4 倍。
英偉達(dá)對(duì)該模型采取了高度開(kāi)放的策略。官方不僅遵循寬松許可證開(kāi)源了模型權(quán)重,還公布了完整的訓(xùn)練方法,包括超 10 萬(wàn)億 Token 的數(shù)據(jù)集和評(píng)估配方。在實(shí)際場(chǎng)景中,它能一次性加載完整代碼庫(kù)進(jìn)行端到端調(diào)試,或瞬間讀取數(shù)千頁(yè)財(cái)務(wù)報(bào)告。
開(kāi)發(fā)者目前可通過(guò) Hugging Face、各大云服務(wù)商(谷歌云、甲骨文,及即將上線的 AWS 和 Azure)獲取該模型。同時(shí),它已被打包為 NVIDIA NIM 微服務(wù),支持無(wú)縫部署制本地?cái)?shù)據(jù)中心和云端。











