近日,國內AI算力領域迎來重大突破——由中科曙光研發的三套scaleX萬卡超集群系統在國家超算互聯網核心節點同步上線試運行。這一里程碑事件標志著我國成為全球首個實現超3萬卡國產AI算力池規模化運營的國家,為萬億參數大模型訓練、AI for Science等前沿領域提供了強大的算力支撐。
此次部署的三套萬卡集群并非孤立存在,而是作為國家超算互聯網的關鍵樞紐,構建起覆蓋全國的國產AI算力資源池。該系統通過國家超算互聯網平臺實現統一調度,已成功連接30余家超算與智算中心,服務用戶超百萬,每日處理作業峰值達103萬個,累計支撐運行1.96億次作業。這種體系化布局使國產算力從"單點突破"邁向"網絡協同",為全球AI算力競爭提供了中國方案。
在技術實現層面,scaleX萬卡超集群突破了三大核心挑戰。針對萬卡級集群的通信瓶頸,系統采用自主研發的scaleFabric高速互聯網絡,基于400G類InfiniBand原生RDMA技術,實現400Gb/s帶寬和低于1微秒的端到端延遲,通信性能較傳統方案提升2倍以上,同時降低30%網絡成本。在供電散熱方面,全球首創的高密度單機柜設計通過浸沒相變液冷技術,將算力密度提升20倍,PUE值降至1.04,在同等機房條件下可部署更多算力資源。
系統運維層面,該集群引入物理集群數字孿生技術,實現故障定位、資源狀態的可視化管理。智能調度引擎可管理萬級節點、服務十萬級用戶,支持每秒萬級作業調度,系統長期可用性達99.99%。這種"數字孿生+智能調度"的組合,使萬卡集群真正融入國家算力體系,成為可復制、可規模交付的標準化產品。
值得注意的是,該系統采用中科曙光牽頭推動的"AI計算開放架構",支持多品牌AI加速卡混合部署,全面兼容CUDA等主流軟件生態,已完成400余個主流大模型的適配優化。這種開放生態降低了開發者遷移成本,為國產算力產業鏈協同發展奠定基礎。在應用場景上,系統已覆蓋材料科學、生命科學等科研領域的大模型計算,同時為模型企業、互聯網公司和行業用戶提供普惠算力服務。
當前,全球AI算力競爭進入白熱化階段。海外方面,馬斯克的xAI宣布"Colossus 2"吉瓦級訓練集群投入運行,OpenAI則聯合Cerebras部署750兆瓦級晶圓級系統。相比之下,中國通過國家超算互聯網的體系化布局,正在形成獨特的競爭優勢。此次三套萬卡集群的同步落地,不僅展現了國產算力的工程化能力,更標志著我國AI基礎設施建設從"拼建設"轉向"拼運營"的新階段。









