近日,中科曙光在鄭州宣布其全自研的scaleFabric高速網絡產品正式發布,并成功在國家超算互聯網核心節點部署了全國產化的萬卡級智算集群。這一突破標志著國產算力基礎設施在關鍵技術領域邁出了重要一步,為應對國際競爭提供了新的支撐。
當前,國產算力集群正面臨從萬卡向十萬卡規模跨越的挑戰。中國科學院計算技術研究所專家王展指出,中科曙光此次實現的萬卡集群是全國首個全棧國產化方案,涵蓋CPU、GPU、交換機芯片及網卡芯片。相比之下,國際巨頭英偉達已通過CUDA生態和InfiniBand(IB)網絡技術構建了十萬卡級集群,并在持續擴大規模。這種差距不僅體現在數字上,更反映了技術、生態和系統工程的全面挑戰。
長期以來,IB網絡技術被英偉達壟斷。該公司通過收購邁絡思掌握了核心技術,形成難以突破的技術壁壘,制約了國內算力產業向超大規模發展。中科曙光高級副總裁李斌表示,從萬卡到十萬卡的核心挑戰不在于計算節點本身,而在于互聯系統。當集群規模呈數量級增長時,計算效率的可擴展性和超高可靠性成為關鍵難題。
據行業調查,到2025年底全球智算基礎設施投資規模將持續擴大,支撐下一代萬億參數大模型需要八萬到十萬卡規模的集群。奇異摩爾聯合創始人祝俊東從技術角度分析,超大規模集群對交換機帶寬和存儲容量提出極高要求,同時端側網卡和協議層面面臨更大挑戰。傳統基于IB或RoCEv2的協議在萬卡以上規模會變為"有損網絡",引發丟包處理、擁塞管理等連鎖問題。
北京科技大學儲根深教授的實踐印證了軟硬件協同的重要性。其團隊通過GPU顯存直接互聯技術優化通信路徑,使萬卡規模下某些軟件的通信開銷從50%降至10%。這表明硬件能力必須通過軟件棧深度適配才能轉化為實際性能。李斌強調,超大規模集群需要網絡側、計算側、供電系統及上層控制系統的整體協同,并與應用算法和分布式訓練流程深度耦合。
實現十萬卡集群面臨三大核心挑戰:大規模可靠性、與算法流程的深度協同、系統級調優門檻。曙光信息產業副總裁李柳指出,可靠性是十萬卡集群的生命線,故障恢復時間隨規模擴大呈指數級增長。scaleFabric采用基于信用的流控機制和鏈路故障快速恢復技術,將恢復時間降至毫秒級,并通過長期穩定性測試驗證其可靠性。
在技術路線選擇上,國產算力面臨IB與以太網RoCE的分野。中科曙光選擇兼容IB生態的路線,認為其無損網絡特性對RDMA性能至關重要。但部分行業專家指出,全球多數智算中心仍基于RoCE技術,且互聯網企業已形成成熟的以太網架構體系。這種分歧源于用戶背景差異:超算從業者傾向IB體系,而智算領域以互聯網企業為主,更熟悉以太網。
這種技術路線分歧帶來市場雙軌并存的格局。李斌表示,中科曙光支持國內不同算力芯片的適配,同時需應對增量部署的兼容性挑戰。王展指出,全新國產集群可實現應用無縫遷移,但若用戶想保留原有英偉達IB交換機,可能因私有協議限制導致通信障礙。這凸顯了掌握自主核心技術的必要性。
國產算力正探索差異化發展路徑。祝俊東認為,美國采取"暴力堆算力"策略,而中國通過提升算力效率、降低成本推動AI普惠。在軟件層面,國產廠商通過精細化優化挖掘硬件潛力;在架構層面,存算一體、重構計算等新型架構為突破海外限制提供新可能。這種發展模式依托電力優勢和互聯技術追趕,有望實現"以系統優勢彌補單點差異"的高質量發展。












