滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

萬卡時代算力新局：網絡成關鍵，國產IB方案崛起引領新趨勢

時間：2026-03-12 23:10:35 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

在人工智能大模型訓練的賽道上，隨著萬卡、十萬卡集群成為新常態，網絡性能正從幕后走向臺前，成為決定訓練效率的關鍵變量。當GPT-4突破萬億參數、Llama 3訓練集群規模達數萬卡時，通信耗時對算力利用率的侵蝕問題愈發凸顯——據行業統計，大規模集群訓練中通信時間占比普遍超過30%，且集群規模每擴大一個數量級，這一比例就呈指數級上升。

這場變革中，曾被視為"經濟之選"的RoCE（RDMA over Converged Ethernet）網絡正遭遇前所未有的挑戰。其基于優先級的流控機制（PFC）在應對超大規模集群時暴露出致命缺陷：當接收端緩沖區壓力達到閾值時，PFC會向上游發送暫停幀，這種"事后補救"模式不僅無法避免丟包風險，更會在多級網絡中引發"暫停幀風暴"。某互聯網巨頭內部數據顯示，其萬卡級RoCE集群每月因PFC風暴導致的訓練中斷達3-5次，每次恢復耗時數分鐘至半小時不等。

運維復雜度成為壓垮RoCE的最后一根稻草。為抑制PFC風暴，網絡團隊需持續調整"水線"參數，但這項工作猶如在高壓線上行走——參數調高會導致降速不及時引發丟包，調低則造成帶寬浪費。某智算中心負責人透露："我們組建了10人專項團隊，每天花費4小時進行參數調優，這對大多數用戶而言根本不可行。"

與之形成鮮明對比的是，原生RDMA架構的InfiniBand（IB）網絡展現出獨特優勢。其基于信用的流控機制要求發送端在傳輸前必須確認接收端緩沖區空間，這種"先確認后發送"的機制從根源上杜絕了丟包可能。更關鍵的是，IB的集中式管理架構可實現全網路徑規劃，徹底消除分布式管理帶來的死鎖風險。在鏈路故障恢復方面，IB通過快速容錯路由技術將恢復時間壓縮至毫秒級，而RoCE通常需要數秒，這在大規模集群中意味著數十分鐘的算力浪費。

成本賬本正在發生逆轉。雖然IB硬件采購成本仍高于RoCE，但萬卡級集群的運維成本已呈現此消彼長態勢。某服務商測算顯示，RoCE集群的專職團隊人力成本、算力閑置成本、故障排查成本綜合計算后，已接近IB方案的硬件差價。更值得關注的是組網效率差異：新一代國產IB方案在單子網支持超11萬卡，較傳統方案提升133%，這意味著更少的交換機層級、更低的光模塊功耗和成本。

市場數據印證著這種轉變。Dell'Oro Group報告顯示，在AI后端網絡市場，InfiniBand長期占據主導地位。某網絡設備廠商銷售總監觀察到："去年客戶還在糾結RoCE能否滿足需求，今年問得最多的是萬卡以上集群的穩定性保障。"這種轉變在大模型落地階段尤為明顯——當訓練任務周期延長至數十天，一次網絡抖動造成的損失就可能覆蓋IB的硬件溢價。

國產化突破為這場變革注入新變量。中科曙光推出的scaleFabric原生無損RDMA網絡系統，實現了從112G SerDes IP到軟件平臺的全棧自研。該系統端到端時延低于1微秒，轉發時延260納秒，性能指標直追國際頂尖的NVIDIA NDR方案。更關鍵的是，其已在國家超算互聯網鄭州核心節點完成3萬卡商用部署，累計運行超10萬項作業，驗證了大規模真實負載下的穩定性。

中國工程院院士鄔賀銓指出，智算集群規模化部署對網絡提出"超低延遲、超高帶寬、全程無損"的嚴苛要求，RDMA高速網絡已成為算力集群的"神經中樞"。隨著十萬卡級集群成為新基建標配，網絡技術路線的選擇將超越簡單的成本計算，真正回歸到"能否讓集群高效運行"的本質需求。在這場算力競賽中，網絡性能正在重新定義游戲規則。

更多>同類資訊

科技賦能筑牢通信防線中國電信北京公司以智慧服務護航2026全國兩會

在網絡保障方面，中國電信北京公司制定百余項保障任務清單，保障團隊提前對兩會會場、代表駐地、媒體中心、交通樞紐等重點場所完成多輪網絡優化與容量提升，全部納入7×24小時重點監測。會議期間，加強重點區域光纜管道…

03-12

致遠電子ZTP系列示教器：以創新技術賦能工業自動化人機交互新體驗

機器人示教器作為操作人員與機器人系統交互的核芯界面，其性能和易用性直接影響著設備調試效率、程序編寫質量以及現場維護響應速度。致遠電子在工業通訊與嵌入式系統領域的技術積累，使其產品在這一演進趨勢中具備持續迭代的…

03-12

理想汽車2025年盈利11億現金儲備超千億具身智能技術突破領航未來

03-12

利亞德攜手中科院研發MicroLED光模塊助力光通信領域節能降耗

03-12

利亞德攜手中科院研發MicroLED光模塊助力AI算力節能降耗

03-12

華力創通回應：當前未涉足AI芯片業務專注衛星通信導航芯片研發應用

03-12

黃仁勛親測英偉達Alpamayo自動駕駛系統，22分鐘零接管暢行擁堵路段

03-12

華為獲國際認證：ISO IEC 42001人工智能管理體系證書花落其家

（全球TMT2026年3月12日訊）近日，在西班牙巴塞羅那全球通信展期間(MWC2026)，國際公認的測試、檢驗和認證機構SGS正式授予華為技術有限公司ISO/IEC 42001人工智能管理體系認證證書。本…

03-12

追覓攜創新割草機器人亮相2026 AWE 開啟庭院智能養護新體驗

03-12

AWE2026石頭科技全系新品登場，以技術創新推動智能清潔產業生態升級

03-12

AI入廚房新突破！老板電器全球首推AI烹飪眼鏡，開啟烹飪新視角

03-12

Mind Robotics獲5億美元A輪融資，Rivian CEO領航打造高性能工業機器人

03-12

方太2026全球智慧廚房生態大會：以AI驅動廚房變革共筑幸福新范式

03-12

英偉達也將打造開源AI模型準備5年投入260億美元

03-12

追覓割草機器人亮相2026 AWE 以領先技術引領庭院智能化升級

03-12

點擊查看更多 +

全站最新

理想汽車2025年盈利11億現金儲備超千億具身智能技術突破領航未來

從被質疑到獲贊譽：中國車企逆襲，日本車企聯手應對電動化挑戰

固態電池是未來但非現在首選？普通人買車應理性，別被“未來感”忽悠

高速連續開五六小時，發動機無需停歇？老司機：別瞎操心，多關心自己和輪胎剎車

美國1月貿易逆差545億美元較前一個月收窄逾25%

美國上周初請失業金人數減少1000人至21.3萬人

熱門內容

本欄最新

華為獲國際認證：ISO IEC 42001人工智能管理體系證書花落其家

方太2026全球智慧廚房生態大會：以AI驅動廚房變革共筑幸福新范式

豫見數智新機遇：埃文科技攜手華為，共繪河南數智化轉型新藍圖

仟德億ATG減速機：以高剛性長壽命，賦能新能源產業穩健前行

山西AI新勢力：數字人技術如何助力企業降本增效開啟商業新篇

零一汽車再獲12億融資新能源重卡研發加速 2026年二季度將實現常態化無人

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

萬卡時代算力新局：網絡成關鍵，國產IB方案崛起引領新趨勢