在人工智能大模型訓練的賽道上,隨著萬卡、十萬卡集群成為新常態,網絡性能正從幕后走向臺前,成為決定訓練效率的關鍵變量。當GPT-4突破萬億參數、Llama 3訓練集群規模達數萬卡時,通信耗時對算力利用率的侵蝕問題愈發凸顯——據行業統計,大規模集群訓練中通信時間占比普遍超過30%,且集群規模每擴大一個數量級,這一比例就呈指數級上升。
這場變革中,曾被視為"經濟之選"的RoCE(RDMA over Converged Ethernet)網絡正遭遇前所未有的挑戰。其基于優先級的流控機制(PFC)在應對超大規模集群時暴露出致命缺陷:當接收端緩沖區壓力達到閾值時,PFC會向上游發送暫停幀,這種"事后補救"模式不僅無法避免丟包風險,更會在多級網絡中引發"暫停幀風暴"。某互聯網巨頭內部數據顯示,其萬卡級RoCE集群每月因PFC風暴導致的訓練中斷達3-5次,每次恢復耗時數分鐘至半小時不等。
運維復雜度成為壓垮RoCE的最后一根稻草。為抑制PFC風暴,網絡團隊需持續調整"水線"參數,但這項工作猶如在高壓線上行走——參數調高會導致降速不及時引發丟包,調低則造成帶寬浪費。某智算中心負責人透露:"我們組建了10人專項團隊,每天花費4小時進行參數調優,這對大多數用戶而言根本不可行。"
與之形成鮮明對比的是,原生RDMA架構的InfiniBand(IB)網絡展現出獨特優勢。其基于信用的流控機制要求發送端在傳輸前必須確認接收端緩沖區空間,這種"先確認后發送"的機制從根源上杜絕了丟包可能。更關鍵的是,IB的集中式管理架構可實現全網路徑規劃,徹底消除分布式管理帶來的死鎖風險。在鏈路故障恢復方面,IB通過快速容錯路由技術將恢復時間壓縮至毫秒級,而RoCE通常需要數秒,這在大規模集群中意味著數十分鐘的算力浪費。
成本賬本正在發生逆轉。雖然IB硬件采購成本仍高于RoCE,但萬卡級集群的運維成本已呈現此消彼長態勢。某服務商測算顯示,RoCE集群的專職團隊人力成本、算力閑置成本、故障排查成本綜合計算后,已接近IB方案的硬件差價。更值得關注的是組網效率差異:新一代國產IB方案在單子網支持超11萬卡,較傳統方案提升133%,這意味著更少的交換機層級、更低的光模塊功耗和成本。
市場數據印證著這種轉變。Dell'Oro Group報告顯示,在AI后端網絡市場,InfiniBand長期占據主導地位。某網絡設備廠商銷售總監觀察到:"去年客戶還在糾結RoCE能否滿足需求,今年問得最多的是萬卡以上集群的穩定性保障。"這種轉變在大模型落地階段尤為明顯——當訓練任務周期延長至數十天,一次網絡抖動造成的損失就可能覆蓋IB的硬件溢價。
國產化突破為這場變革注入新變量。中科曙光推出的scaleFabric原生無損RDMA網絡系統,實現了從112G SerDes IP到軟件平臺的全棧自研。該系統端到端時延低于1微秒,轉發時延260納秒,性能指標直追國際頂尖的NVIDIA NDR方案。更關鍵的是,其已在國家超算互聯網鄭州核心節點完成3萬卡商用部署,累計運行超10萬項作業,驗證了大規模真實負載下的穩定性。
中國工程院院士鄔賀銓指出,智算集群規模化部署對網絡提出"超低延遲、超高帶寬、全程無損"的嚴苛要求,RDMA高速網絡已成為算力集群的"神經中樞"。隨著十萬卡級集群成為新基建標配,網絡技術路線的選擇將超越簡單的成本計算,真正回歸到"能否讓集群高效運行"的本質需求。在這場算力競賽中,網絡性能正在重新定義游戲規則。












