在人工智能算力需求持續飆升的背景下,英偉達正通過技術迭代重構GPU互連架構。其最新發布的Vera Rubin NVL576與Rosa Feynman NVL1152系統,標志著GPU集群規模正式突破單機柜限制,通過光互連技術將單域計算節點擴展至576乃至1152顆GPU。這一跨越式發展背后,是英偉達對銅纜與光互連技術的深度權衡與戰略布局。
2024年推出的NVL72機柜曾代表銅纜互連的物理極限。該系統通過5000余根同軸銅纜實現72顆GPU全互連,總纜長超3.2公里,自重達1.36噸。銅纜方案憑借零功耗、無源器件的高可靠性,以及每顆GPU僅需18個連接器的成本優勢,成為當時最優解。英偉達網絡高級副總裁Gilad Shainer曾強調:"在可用范圍內,銅是完美的連接介質。"但銅纜的信號衰減特性導致1.8TB/s帶寬下有效傳輸距離不足1米,這直接限制了單機柜GPU容量。
隨著大模型訓練對算力需求的指數級增長,跨機柜互連成為剛需。傳統InfiniBand網絡帶寬與延遲無法滿足數千顆GPU協同訓練要求,英偉達開始重新評估光互連技術。2025年,公司在Spectrum以太網與Quantum InfiniBand交換機上率先量產共封裝光學(CPO)模塊,通過將光引擎集成至交換芯片封裝,使單個光模塊功耗從10-15瓦降至3瓦以下,體積縮減60%,為光互連進入scale-up網絡掃清障礙。
新發布的NVL576系統采用銅光混合架構:機柜內部GPU與NVSwitch仍通過銅背板連接,跨機柜則采用光模塊組建spine網絡。這種設計既保留了銅纜在短距離連接中的成本與可靠性優勢,又突破了物理距離限制。據測算,若用可插拔光模塊替代銅纜,整套系統將額外消耗20千瓦電力,相當于增加16%的能耗。而CPO技術的引入,使光互連的功耗與成本降至可接受范圍。
為確保供應鏈安全,英偉達在2026年3月完成三項關鍵投資:向激光器供應商Coherent與Lumentum各注資20億美元鎖定產能,并投資20億美元與Marvell合作開發硅光子技術。Coherent隨即宣布將磷化銦晶圓產能翻倍,Lumentum則加速高功率激光芯片研發。Marvell通過收購Celestial AI獲得Photonic Fabric光子互連技術,該技術可構建跨機柜一致性內存網絡,有望在Feynman系統中實現單層交換網絡架構。
英偉達超大規模計算副總裁Ian Buck透露,Feynman系統計劃在GPU封裝中集成CPO,但需解決交換芯片端口密度難題。當前工藝下,單顆芯片直連上千顆GPU仍不現實,公司正探索分層交換與單層交換的平衡方案。Gilad Shainer在采訪中暗示傾向單層架構:"計算引擎間的延遲必須盡可能低,這是設計核心原則。"
這場技術轉型正重塑AI基礎設施競爭格局。UALink聯盟雖已推出開放互連標準,但其硬件量產要等到2026年底,規模部署可能延遲至2027年。而英偉達通過提前鎖定光學供應鏈,在時間窗口期內建立起產能壁壘。不過公司明確表示,銅纜在機柜內部連接中仍不可替代——Vera Rubin與Feynman系統均保留銅背板設計,僅將光互連應用于跨機柜場景。這種"各司其職"的策略,標志著AI算力架構進入銅光共生的新時代。











