中科曙光(603019.SH)近日宣布,在國(guó)產(chǎn)高端網(wǎng)絡(luò)技術(shù)領(lǐng)域取得里程碑式進(jìn)展,成功推出國(guó)內(nèi)首款全棧自研的400G無(wú)損高速網(wǎng)絡(luò)解決方案——scaleFabric。該產(chǎn)品以原生RDMA架構(gòu)為核心,實(shí)現(xiàn)了從底層112G SerDes高速信號(hào)傳輸技術(shù)、硬件設(shè)備到上層管理軟件的完全自主化研發(fā),標(biāo)志著我國(guó)在數(shù)據(jù)中心高速網(wǎng)絡(luò)領(lǐng)域首次打破國(guó)際技術(shù)壟斷,為超大規(guī)模人工智能計(jì)算集群提供了關(guān)鍵基礎(chǔ)設(shè)施支撐。
作為面向下一代智算場(chǎng)景設(shè)計(jì)的創(chuàng)新產(chǎn)品,scaleFabric構(gòu)建了完整的自主技術(shù)生態(tài)鏈。其研發(fā)團(tuán)隊(duì)攻克了核心IP設(shè)計(jì)、交換芯片架構(gòu)、智能網(wǎng)卡開發(fā)等關(guān)鍵技術(shù)難題,形成涵蓋網(wǎng)卡、交換機(jī)、驅(qū)動(dòng)軟件及集群管理系統(tǒng)的全鏈條解決方案。這種從硬件到軟件的垂直整合能力,使系統(tǒng)性能優(yōu)化不再受制于國(guó)外技術(shù)標(biāo)準(zhǔn),為國(guó)內(nèi)AI企業(yè)構(gòu)建自主可控的計(jì)算網(wǎng)絡(luò)提供了全新選擇。
在性能指標(biāo)方面,scaleFabric400系列展現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)力。其智能網(wǎng)卡采用PCIe5.0高速接口,單端口帶寬突破400Gbps,端到端通信延遲控制在0.9微秒以內(nèi);配套交換機(jī)產(chǎn)品單端口帶寬達(dá)800Gbps,整機(jī)交換容量高達(dá)雙向64Tbps,交換延遲僅260納秒。經(jīng)實(shí)測(cè)驗(yàn)證,該網(wǎng)絡(luò)架構(gòu)可完美支撐萬(wàn)卡級(jí)AI訓(xùn)練集群的并發(fā)計(jì)算需求,在帶寬利用率和時(shí)延穩(wěn)定性等關(guān)鍵指標(biāo)上達(dá)到國(guó)際領(lǐng)先水平。
針對(duì)大規(guī)模集群運(yùn)行的穩(wěn)定性挑戰(zhàn),研發(fā)團(tuán)隊(duì)創(chuàng)新性地采用信用制無(wú)損流量控制機(jī)制,從協(xié)議層面消除網(wǎng)絡(luò)擁塞導(dǎo)致的丟包風(fēng)險(xiǎn)。測(cè)試數(shù)據(jù)顯示,系統(tǒng)可在1毫秒內(nèi)完成鏈路故障自動(dòng)恢復(fù),近萬(wàn)卡規(guī)模集群已持續(xù)穩(wěn)定運(yùn)行超過(guò)10個(gè)月。相比國(guó)際同類產(chǎn)品,scaleFabric的交換機(jī)端口密度提升25%,網(wǎng)卡并發(fā)連接數(shù)增加100%,單子網(wǎng)互連規(guī)模擴(kuò)展至傳統(tǒng)IB網(wǎng)絡(luò)的2.33倍,最大可支持11.4萬(wàn)卡規(guī)模的超大型集群部署。
成本優(yōu)勢(shì)成為該產(chǎn)品的另一大亮點(diǎn)。通過(guò)架構(gòu)優(yōu)化和自主技術(shù)替代,scaleFabric在保持性能領(lǐng)先的同時(shí),將網(wǎng)絡(luò)建設(shè)總成本降低30%。這種"性能不減、成本更優(yōu)"的特性,特別適用于需要大規(guī)模擴(kuò)展計(jì)算資源的AI訓(xùn)練場(chǎng)景,為國(guó)內(nèi)企業(yè)構(gòu)建自主可控的智算基礎(chǔ)設(shè)施提供了更具性價(jià)比的解決方案。目前,該產(chǎn)品已進(jìn)入多家頭部AI企業(yè)的測(cè)試驗(yàn)證階段,預(yù)計(jì)將在年內(nèi)實(shí)現(xiàn)規(guī)模化商用部署。











