隨著人工智能模型參數規模突破萬億級,傳統單芯片算力已難以滿足大模型訓練需求。在此背景下,一種名為“超節點”的新型技術架構正成為AI基礎設施升級的核心方向。該架構通過高速互聯協議將數百至數千顆算力芯片緊密耦合,在邏輯層面構建出“超大型GPU”,從根本上突破了單機服務器的性能瓶頸。
超節點概念最早由英偉達提出,其核心創新在于采用Scale up縱向擴展模式替代傳統Scale out橫向擴展。以英偉達GB200 NVL72為例,該系統通過NVLink Switch將36個Grace CPU與72個Blackwell GPU實現全互聯,總帶寬達130TB/s,有效解決了分布式訓練中的通信延遲問題。這種架構的關鍵在于專用互聯協議(如NVLink、UALink)與特定網絡拓撲(如胖樹、Mesh結構)的深度融合。
物理層面,超節點機柜集成計算節點、交換節點、供電單元與散熱系統四大模塊。在ETH-X方案中,計算節點通過高速背板連接器與交換節點互通,后者搭載的高帶寬交換芯片承擔著機柜內全芯片互聯任務。面對單機柜功耗突破百千瓦的挑戰,供電系統采用Power shelf配合Busbar母線供電,支持N+2冗余設計;散熱方案則轉向液冷主導模式,GPU、CPU及交換芯片均需配備冷板模組,液冷占比超80%,這對冷板、快接頭等配套產業提出全新要求。
國產陣營正通過超節點架構實現彎道超車。華為CloudMatrix 384系統集成192顆鯤鵬CPU與384顆昇騰910C芯片,采用自研UB網絡互聯。盡管單顆910C芯片性能僅為英偉達GB200模組的三分之一,但通過集群規模效應,其整體BF16性能達NVL72的1.7倍,內存容量與帶寬分別提升3.6倍和2.1倍。更值得關注的是,華為Atlas 950超節點支持8192張昇騰芯片全光連接,互聯帶寬達16.3PB/s,總算力是英偉達NVL144的6.7倍。
產業鏈變革隨之而來。光通信領域,高速光模塊與光芯片需求激增;交換芯片賽道,國產廠商加速自研進程;液冷散熱從可選配置變為核心組件,帶動冷卻液、CDU等細分市場增長;供電系統則催生高功率電源與高壓UPS的旺盛需求。中興通訊推出的智算超節點系統搭載自研凌云AI交換芯片,紫光股份H3C UniPoD S80000實現64卡柜內全互聯,浪潮信息“元腦SD200”通過虛擬映射技術將顯存空間擴展8倍,這些創新標志著國產超節點生態逐步成熟。
技術標準正從封閉走向開放。UALink聯盟匯聚AMD、谷歌等科技巨頭,博通SUE框架將以太網優勢引入Scale up領域,中國移動聯合48家單位發布OISA協議,海光攜手國產廠商推出HSL規范。這種開放趨勢將降低產業鏈協同門檻,加速技術創新。隨著超節點規模向萬卡、百萬卡級演進,光通信、液冷、供電、交換芯片四大領域的技術突破將持續重塑AI基礎設施格局。











