AI算力領域正經歷一場從訓練向推理的深度轉型,英偉達與OpenAI的最新布局成為這一趨勢的核心注腳。據行業消息,英偉達計劃在下月GTC開發者大會上推出融合Groq語言處理單元(LPU)技術的新一代推理芯片,該產品被其CEO黃仁勛稱為"顛覆性系統"。OpenAI已確認成為首批大客戶,將采購大規模專用推理算力,同時與初創企業Cerebras達成數十億美元合作,后者宣稱其推理芯片速度已超越傳統GPU架構。
申萬宏源研究報告指出,推理算力正呈現四大變革方向:專用架構崛起挑戰GPU主導地位,純CPU部署場景顯著增加,國產芯片突破加速供應鏈多元化,以及算力需求從單次訓練轉向海量Token消耗。數據顯示,春節期間國內頭部模型推理量激增,豆包除夕當日處理633億tokens,千問春節活動參與人數超1.2億。全球模型調用平臺OpenRouter數據顯示,2月第三周中國模型調用量達4.12萬億tokens,首次超越美國的2.94萬億,次周更攀升至5.16萬億,三周漲幅達127%,全球前五模型中中國占據四席。
技術架構層面,LPU與GPU的分野愈發清晰。英偉達通過200億美元技術許可交易獲取Groq核心專利,并吸納其創始人團隊,標志著純推理芯片獲得頂級廠商認可。LPU針對推理場景的兩大瓶頸——延遲和內存帶寬進行優化,其架構設計在解碼階段效率顯著高于傳統GPU。據透露,英偉達新品可能采用下一代Feynman架構,通過3D堆疊技術深度整合LPU與SRAM,形成訓練端GPU-HBM、推理端ASIC-LPU-SRAM的明確分工格局。
系統級革新同樣成為焦點。隨著AI應用從聊天機器人向智能體(Agent)演進,算力系統需同時滿足低延遲、高吞吐與深度思考需求。申萬宏源研究提出三層網絡架構模型:快反應層采用SRAM加速芯片實現毫秒級響應,慢思考層依賴多核CPU集群處理復雜邏輯,記憶層則通過SSD存儲長期數據。英偉達已調整硬件策略,本月宣布與meta完成首次大規模純CPU部署,支持其廣告定向智能體,打破以往GPU捆綁銷售模式。
國產算力突破成為另一重要變量。新一代國產推理芯片實現多項技術躍升:支持FP8/MXFP4等低精度格式,算力達1-2P;向量計算能力通過SIMD/SIMT雙模型設計大幅提升;互聯帶寬增至2TB/s。特別值得關注的是PD分離技術,通過自研兩種規格HBM分別適配預填充(Prefill)與解碼(Decode)場景,其中PR版本采用低成本方案,可降低推理階段投資成本30%以上,預計2026年一季度量產。供應鏈數據印證了這一趨勢,某頭部封測企業2.5D封裝收入從2022年0.5億元暴增至2024年18.2億元,顯示國產算力芯片產能持續擴張。
這場算力革命的驅動力來自兩大結構性變化:大模型商業化進程加速,Claude等模型密集發布行業插件;智能體技術落地提速,openclaw、千問Agent等產品進入真實生產場景。每次模型調用與任務執行背后,均需龐大推理算力支撐。申萬宏源研究強調,性價比將成為核心競爭要素,能夠提供充足、低成本推理芯片的廠商將主導新一輪產業格局重塑。








