即將在加州圣何塞舉辦的NVIDIA全球技術(shù)大會(huì)(GTC)引發(fā)行業(yè)高度關(guān)注,其核心焦點(diǎn)在于英偉達(dá)或?qū)⑼瞥鋈诤蟿?chuàng)新架構(gòu)的AI推理芯片。據(jù)產(chǎn)業(yè)鏈消息,這款被黃仁勛稱為"顛覆性"的產(chǎn)品可能整合Groq團(tuán)隊(duì)研發(fā)的語(yǔ)言處理單元(LPU)技術(shù),標(biāo)志著英偉達(dá)首次在核心產(chǎn)品線中大規(guī)模引入外部計(jì)算架構(gòu)。
當(dāng)前AI算力市場(chǎng)正經(jīng)歷結(jié)構(gòu)性轉(zhuǎn)變。德勤最新行業(yè)報(bào)告顯示,到2026年推理環(huán)節(jié)將占據(jù)全球AI計(jì)算資源的三分之二,催生出價(jià)值數(shù)十億美元的專用芯片市場(chǎng)。這種轉(zhuǎn)變?cè)从谝設(shè)penClaw為代表的新一代智能體應(yīng)用爆發(fā),推動(dòng)市場(chǎng)重心從模型訓(xùn)練轉(zhuǎn)向?qū)崟r(shí)推理服務(wù)。傳統(tǒng)GPU架構(gòu)在處理推理任務(wù)時(shí)面臨顯著瓶頸——模型參數(shù)存儲(chǔ)于高帶寬內(nèi)存(HBM)中,計(jì)算核心與存儲(chǔ)單元間的頻繁數(shù)據(jù)搬運(yùn)導(dǎo)致解碼階段延遲居高不下。
Groq LPU架構(gòu)通過(guò)將參數(shù)存儲(chǔ)在片上靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)破解這一難題。其230MB SRAM配置可提供80TB/s的內(nèi)存帶寬,數(shù)據(jù)處理效率較GPU架構(gòu)提升數(shù)個(gè)量級(jí)。但專家指出,純SRAM方案難以支撐千億參數(shù)級(jí)別的大模型運(yùn)行,當(dāng)前最大容量SRAM芯片僅能存儲(chǔ)約20億參數(shù),與主流大模型需求存在數(shù)量級(jí)差距。
行業(yè)分析師莊昌磊透露,英偉達(dá)可能采用三維堆疊技術(shù)突破物理限制。這種方案借鑒AMD 3D V-Cache技術(shù),通過(guò)臺(tái)積電系統(tǒng)級(jí)集成芯片(SoIC)工藝,將包含大量SRAM的LPU單元直接堆疊在GPU晶圓上方。這種設(shè)計(jì)既保留GPU的完整軟件生態(tài),又能吸收LPU的低延遲優(yōu)勢(shì),使解碼階段速度提升3-5倍。
三維存儲(chǔ)架構(gòu)正在重塑半導(dǎo)體產(chǎn)業(yè)鏈價(jià)值分布。東方證券研究指出,SRAM 3D堆疊通過(guò)垂直擴(kuò)展存儲(chǔ)密度,可規(guī)避傳統(tǒng)平面架構(gòu)的容量限制,特別適用于對(duì)延遲敏感的推理場(chǎng)景。中信證券測(cè)算顯示,采用該技術(shù)的芯片在訪存帶寬指標(biāo)上可提升40%,同時(shí)降低25%的能效比。
技術(shù)變革帶來(lái)新的產(chǎn)業(yè)機(jī)遇與挑戰(zhàn)。晶圓級(jí)堆疊要求計(jì)算單元采用最先進(jìn)制程(如臺(tái)積電A16工藝),這將加劇行業(yè)對(duì)3nm以下尖端制程的依賴。莊昌磊分析認(rèn)為,高端芯片價(jià)值正向前端制造環(huán)節(jié)集中,可能擠壓傳統(tǒng)封測(cè)廠商利潤(rùn)空間。但這也為本土企業(yè)開(kāi)辟差異化賽道——在成熟制程芯片的3D集成、散熱管理、可靠性測(cè)試等后道環(huán)節(jié)建立技術(shù)壁壘。
供應(yīng)鏈動(dòng)態(tài)顯示,富士通計(jì)劃在2027年出貨的MONAKA處理器已采用類似技術(shù),驗(yàn)證了三維SRAM架構(gòu)的商業(yè)可行性。隨著英偉達(dá)、AMD等巨頭加速布局,存儲(chǔ)與計(jì)算單元的垂直整合或成為下一代AI芯片的標(biāo)配設(shè)計(jì),推動(dòng)半導(dǎo)體產(chǎn)業(yè)進(jìn)入立體集成新時(shí)代。











