在近期舉辦的GTC大會(huì)上,英偉達(dá)宣布推出三款全新系統(tǒng)架構(gòu),涵蓋推理加速、CPU密度優(yōu)化及存儲(chǔ)編排領(lǐng)域,標(biāo)志著其從GPU算力供應(yīng)商向全棧AI基礎(chǔ)設(shè)施平臺(tái)的戰(zhàn)略轉(zhuǎn)型邁出關(guān)鍵一步。此次發(fā)布的Groq LPX推理機(jī)架、Vera ETL256 CPU集群與STX存儲(chǔ)參考架構(gòu),通過(guò)整合第三方技術(shù)專(zhuān)利與自研芯片,構(gòu)建起覆蓋AI計(jì)算全鏈條的硬件生態(tài)。
Groq LPX系統(tǒng)的推出尤為引人注目。該系統(tǒng)基于英偉達(dá)對(duì)Groq團(tuán)隊(duì)的知識(shí)產(chǎn)權(quán)收購(gòu),將第三代LPU架構(gòu)的LP30芯片與自家GPU深度融合。LP30采用三星SF4制程工藝,集成500MB片上SRAM,在FP8精度下可提供1.2 PFLOPS算力。其設(shè)計(jì)突破在于通過(guò)"注意力與前饋網(wǎng)絡(luò)解耦"技術(shù),將大模型推理中的動(dòng)態(tài)計(jì)算部分交由GPU處理,而靜態(tài)計(jì)算任務(wù)則由LPU承擔(dān)。這種分工使系統(tǒng)在保持低延遲特性的同時(shí),HBM容量利用率提升30%,單次解碼步驟的輸出token數(shù)增加至1.5-2倍。
在硬件架構(gòu)層面,LPX機(jī)架采用模塊化設(shè)計(jì),32個(gè)1U計(jì)算托盤(pán)通過(guò)銅纜背板實(shí)現(xiàn)全互聯(lián),單節(jié)點(diǎn)內(nèi)16塊LP30芯片構(gòu)成Mesh拓?fù)渚W(wǎng)絡(luò)。每個(gè)托盤(pán)配備的Altera FPGA承擔(dān)協(xié)議轉(zhuǎn)換與內(nèi)存擴(kuò)展功能,提供最高256GB DDR5緩存空間。這種設(shè)計(jì)使機(jī)架整體規(guī)模擴(kuò)展帶寬達(dá)到640TB/s,較傳統(tǒng)架構(gòu)提升4倍以上。值得關(guān)注的是,LP30芯片采用單芯片設(shè)計(jì),無(wú)需依賴先進(jìn)封裝技術(shù),從而規(guī)避了臺(tái)積電3nm產(chǎn)能的限制。
針對(duì)AI訓(xùn)練中日益突出的CPU瓶頸問(wèn)題,Vera ETL256系統(tǒng)通過(guò)極端密度設(shè)計(jì)實(shí)現(xiàn)突破。該機(jī)架在42U空間內(nèi)集成256顆Vera CPU,采用液冷技術(shù)與對(duì)稱(chēng)式銅纜布線方案,將機(jī)架內(nèi)網(wǎng)絡(luò)延遲控制在100納秒以內(nèi)。每個(gè)計(jì)算托盤(pán)搭載8顆CPU,通過(guò)Spectrum-X交換機(jī)實(shí)現(xiàn)200Gb/s全互聯(lián)。這種設(shè)計(jì)使單個(gè)機(jī)架即可支持大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練所需的仿真環(huán)境運(yùn)行,較傳統(tǒng)分布式方案減少70%的CPU資源浪費(fèi)。
存儲(chǔ)領(lǐng)域的創(chuàng)新體現(xiàn)在STX參考架構(gòu)的推出。該架構(gòu)與英偉達(dá)此前發(fā)布的CMX上下文存儲(chǔ)平臺(tái)形成互補(bǔ),詳細(xì)規(guī)定了磁盤(pán)驅(qū)動(dòng)器、Vera CPU、BlueField-4 DPU及Spectrum-X交換機(jī)的配置比例。每個(gè)STX機(jī)架包含16個(gè)計(jì)算單元,共配備32顆Vera CPU與64塊CX-9網(wǎng)卡,通過(guò)SOCAMM模塊實(shí)現(xiàn)存儲(chǔ)與計(jì)算的解耦。包括DDN、戴爾、HPE在內(nèi)的七家主流存儲(chǔ)廠商已承諾支持該標(biāo)準(zhǔn),這為英偉達(dá)滲透存儲(chǔ)基礎(chǔ)設(shè)施市場(chǎng)奠定基礎(chǔ)。
行業(yè)分析指出,這三款系統(tǒng)的協(xié)同效應(yīng)將重塑AI硬件供應(yīng)鏈格局。LPX系統(tǒng)通過(guò)差異化技術(shù)路徑開(kāi)辟了推理優(yōu)化新賽道;Vera ETL256解決了GPU集群擴(kuò)張中的CPU配比難題;STX架構(gòu)則使英偉達(dá)得以將控制力延伸至存儲(chǔ)層。特別值得注意的是,LP30芯片采用非HBM內(nèi)存方案,為英偉達(dá)在存儲(chǔ)資源緊張的市場(chǎng)環(huán)境下創(chuàng)造了獨(dú)特的競(jìng)爭(zhēng)優(yōu)勢(shì)。隨著這些系統(tǒng)逐步投入商用,AI基礎(chǔ)設(shè)施市場(chǎng)的集中度預(yù)計(jì)將進(jìn)一步提升。











