在GTC 2026主題演講上,一款名為英偉達Groq 3 LPU的全新芯片正式亮相。
北京時間周二凌晨,英偉達正式推出Vera Rubin平臺,包括Groq 3 LPU(簡稱LPU)在內,共計搭載了七款芯片,分別為Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9超級網卡、BlueField-4 DPU和Spectrum-6以太網交換機。
據悉,英偉達將構建包含256個LPU的Groq 3 LPX機架,提供128GB(每個LPU集成500MB的SRAM)的SRAM和40 PB/s的推理加速帶寬,并通過每個機架640 TB/s的專用擴展接口將這些芯片連接起來。這款機架將與Vera Rubin NVL72、Vera CPU等另外四款機架一同構成完整的AI超級計算機平臺Vera Rubin。
英偉達表示,Groq 3 LPX 是Vera Rubin的推理加速器,旨在滿足智能體系統對低延遲和大上下文的需求。Vera Rubin和LPX通過協同設計的架構,將Rubin GPU和LPU的卓越性能完美結合,使其呈現極低延遲與超大吞吐量的特點。
黃仁勛介紹稱,LPX與Vera Rubin平臺結合后,推理吞吐量/功耗比將能提升35倍。LPU芯片將由三星代工,預計機架將于今年下半年開始出貨。
就在昨日,分析師郭明錤發文稱,在英偉達投資Groq之后,LPU的出貨量預測已大幅上調。預計2026至2027年的總出貨量將達到400萬至500萬顆。新架構機柜預計于今年第四季度開始量產,2026年與2027年機柜出貨量分別約為300至500個,以及15000至20000個。
在他看來,LPU需求增長快速增長主要來自外部因素。一方面,LPU與英偉達生態系(如CUDA)高度整合,大幅降低應用開發與部署門檻。另一方面,如今業內超低延遲推理需求快速增加,包括AI智能體(AI Agents)以及正在興起的即時處理(Real-Time)、終端用戶(Consumer-Facing)與物理AI(Physical-AI)等類型應用。
值得一提的是,黃仁勛在主題演講上也強調,AI已完成從感知智能到生成智能,再到物理智能和智能體智能的關鍵躍遷。
財通證券指出,大模型在推理過程中會存在延遲,延遲與用戶體驗感精密掛鉤,大模型推理過程中的延遲主要在Decode階段,核心瓶頸在于內存帶寬。LPU具備更快的內存帶寬,可縮短大模型推理過程中的延遲。同時,基于LPU的大模型不僅具有更快的推理速度,還可以提供更具性價比的價格,可進一步提高用戶體驗感。











