近日,國內AI算力領域迎來重大突破——由中科曙光研發的3套scaleX萬卡超集群系統在國家超算互聯網核心節點同步上線,標志著我國首個實際運營的國產超3萬卡AI算力池正式投入使用。這一成果不僅刷新了國內單節點算力規模紀錄,更在全球AI算力競賽白熱化的背景下,為國產算力生態建設提供了關鍵支撐。
此次部署的3套萬卡集群實現了多項技術突破。在硬件層面,采用自主研發的scaleFabric高速互聯網絡,基于400G類InfiniBand原生RDMA技術,將端到端通信延遲壓縮至1微秒以內,帶寬提升至400Gb/s。該架構特別設計了橫向擴展能力,可平滑支持未來十萬卡級集群建設,通信性能較傳統方案提升超200%,同時降低30%網絡建設成本。在能效管理方面,通過浸沒相變液冷技術與超高密度刀片架構的融合創新,單機柜算力密度達到傳統方案的20倍,PUE值低至1.04,在同等機房空間內可部署更多算力資源。
系統級優化同樣值得關注。為解決萬卡集群的調度難題,研發團隊構建了"數字孿生+智能調度"管理體系。通過物理集群的數字化映射,實現故障定位、資源狀態的實時可視化監控;智能調度引擎具備每秒萬級作業處理能力,可同時服務十萬級用戶,系統長期可用性達99.99%。這種設計使集群擺脫單純硬件堆砌的局限,真正成為可運營的算力基礎設施。
從應用場景看,該算力池已形成完整覆蓋能力。在科研領域,為材料科學、生命科學等方向的大模型訓練提供算力支撐;在產業端,面向模型企業、互聯網公司及行業用戶開放統一服務入口,日均處理作業峰值突破103萬個。特別值得關注的是其生態兼容性——通過"AI計算開放架構"理念,系統支持多品牌AI加速卡混合部署,完成400余個主流大模型的適配優化,有效降低了開發者的遷移成本。
國家超算互聯網平臺在此過程中發揮關鍵樞紐作用。截至目前,該平臺已連接全國30余個超算與智算中心,注冊用戶超百萬,應用商品達7200余個,累計支撐1.96億次作業運行。新上線的核心節點作為"算力樣板間",不僅驗證了國產萬卡集群在真實業務環境下的穩定性與經濟性,更通過開放架構推動產業鏈協同發展。這種發展路徑的轉變,標志著我國AI算力建設正從單點技術突破邁向生態體系共建的新階段。
在全球范圍內,AI算力競爭已進入深水區。海外科技巨頭近期動作頻頻:馬斯克宣布xAI的"Colossus 2"吉瓦級集群投入運營,OpenAI聯合Cerebras部署750兆瓦級推理平臺。相比之下,我國通過國家超算互聯網的體系化建設,正在探索一條差異化發展道路——以工程化能力實現算力資源的規模化部署,用開放生態降低技術應用門檻,最終構建起可持續運營的國產算力網絡。














