英偉達近日宣布,其最新推出的Blackwell Ultra AI架構(GB300 NVL72)在能效與成本方面取得重大突破。通過DeepSeek-R1模型測試,該架構每兆瓦吞吐量較前代Hopper GPU提升50倍,每百萬Token處理成本降至原來的1/35。這一成果標志著AI基礎設施性能與經濟性的雙重飛躍。
技術升級是性能躍升的核心驅動力。Blackwell Ultra通過NVLink技術將72個GPU整合為統一計算單元,實現130 TB/s的超高互聯帶寬,較Hopper架構的8芯片設計實現質的飛躍。配合全新NVFP4精度格式與協同設計架構,該平臺在吞吐性能領域確立領先地位。針對長上下文任務場景,GB300的Token成本較上一代Blackwell(GB200)降低60%,注意力機制處理速度翻倍,特別適用于代碼庫維護等高負載應用。
在AI推理成本優化方面,新架構展現顯著優勢。相較于Hopper平臺,GB300每百萬Token處理成本壓縮至1/35,即使與GB200相比,長文本處理成本也降至1.5分之一。這種成本效率的提升,得益于TensorRT-LLM庫等軟件工具的持續優化——該庫在四個月內將低延遲工作負載性能提升5倍,顯著增強混合專家模型(MoE)的推理吞吐能力。
行業需求變化推動技術迭代加速。OpenRouter《推理狀態報告》顯示,過去一年中軟件編程相關AI查詢量占比從11%激增至50%。這類應用要求AI代理在多步驟工作流中保持實時響應,并具備跨代碼庫的長上下文推理能力。英偉達通過Dynamo團隊等研發力量,針對性優化了長文本處理與低延遲響應性能,使GB300在代碼生成、系統維護等場景中展現強大適應性。
值得關注的是,英偉達同步預告了下一代Rubin平臺。該平臺預計每兆瓦吞吐量較Blackwell再提升10倍,進一步鞏固其在AI算力領域的領先地位。這一系列技術突破,不僅重塑了AI基礎設施的性能標準,更為大規模語言模型的應用落地提供了經濟可行的解決方案。










