一篇尚未正式發布的學術論文,在國際科技圈與金融市場掀起軒然大波。3月26日,全球存儲芯片板塊遭遇劇烈震蕩,多家內存巨頭市值單日蒸發超900億美元,這場風波的源頭指向谷歌研究院即將在國際學習表征會議(ICLR 2026)上展示的論文“TurboQuant”。
當前AI模型與用戶交互時,需持續記錄對話歷史上下文,這部分臨時存儲的數據量會隨上下文窗口擴大呈指數級增長。谷歌團隊通過研發PolarQuant(極坐標量化)與QJL(量化JL變換)兩項技術,在保持模型性能“零損失”的前提下,將KV Cache壓縮至3-bit精度,使內存占用縮減至少6倍。在英偉達H100 GPU測試中,4-bit精度的TurboQuant注意力計算速度較32-bit未量化版本提升8倍。
Cloudflare首席執行官將這項突破類比為科技領域的“DeepSeek時刻”,認為其可能通過極致效率優化顯著降低AI運行成本。該觀點引發市場對存儲芯片需求銳減的擔憂,直接導致相關企業股價暴跌。
華爾街投行對此保持審慎態度。摩根士丹利在研報中指出,市場存在嚴重誤讀:TurboQuant僅優化推理階段的鍵值緩存,不影響模型權重所需的高帶寬內存(HBM),也與AI訓練任務無關。所謂“6倍壓縮”實為通過提升計算效率增加單GPU處理能力,而非減少整體存儲需求。
Lynx Equity Strategies分析師KC Rajkumar補充稱,媒體報道存在夸大成分。當前主流推理模型已普遍采用4-bit量化技術,谷歌宣稱的“8倍性能提升”是基于與32位老舊模型的對比結果。
摩根士丹利引用經濟學中的“杰文斯悖論”分析長期影響:技術效率提升雖能降低單位使用成本,但往往會因應用門檻降低而刺激整體需求增長。富國銀行分析師Andrew Rocha則強調,壓縮算法從未改變硬件采購的總體規模,這類技術更多是通過降低單次查詢成本,推動AI模型從云端向本地設備遷移,從而擴大部署范圍。
從供應鏈數據看,2026年服務器DRAM需求預計增長39%,HBM需求年增幅達58%。市場分析認為,TurboQuant的優化效果可能被行業整體增長趨勢所稀釋。截至目前,谷歌尚未公布該技術在Gemini等自研模型中的具體應用時間表,相關技術討論將于4月的ICLR 2026會議上持續深入。








