3月26日消息,谷歌研究團隊(Google Research)近日正式推出全新向量量化壓縮算法TurboQuant,通過創新的 PolarQuant 與 QJL 技術,將大語言模型(LLM)推理過程中的 內存需求減少至少6倍,在 Nvidia H100GPU 上注意力計算速度提升最高8倍,且在多項長上下文基準測試中實現零精度損失。這一突破性進展有望大幅降低 AI 部署成本,加速長上下文應用落地。
KV Cache 痛點:高維向量內存開銷巨大LLM 在處理長序列時,需要維護鍵(Key)和值(Value)向量組成的緩存,這些高維向量用于快速計算注意力機制,避免重復計算。但隨著上下文長度增加,KV Cache 內存消耗呈爆炸式增長,成為制約模型推理效率和部署規模的主要瓶頸。
傳統向量量化方法雖能壓縮數據,卻需額外存儲量化常數(如縮放因子、零點等),這些常數通常以全精度保存,每個數值額外引入1-2bit 開銷,部分抵消了壓縮收益。
TurboQuant 核心創新:PolarQuant + QJL 雙階段壓縮TurboQuant 采用兩階段無訓練壓縮框架,巧妙解決了傳統量化的開銷問題:
PolarQuant(極坐標角度壓縮):
先對向量進行隨機旋轉,然后將笛卡爾坐標(X/Y/Z 等)轉換為極坐標形式(角度 + 半徑)。由于角度分布在固定可預測范圍內,該方法省去了傳統量化中所需的邊界歸一化存儲開銷,實現更高效的壓縮。
QJL(1-bit 糾錯,Quantized Johnson-Lindenstrauss):
PolarQuant 壓縮后仍存在殘余誤差。QJL 利用 Johnson-Lindenstrauss 變換進行降維,再以極簡的1bit(+1/-1符號)進行量化。通過特殊的無偏估計器,在計算注意力分數時實現零額外內存開銷的誤差修正,確保整體過程無系統偏差。
兩者結合后,TurboQuant 可將 KV Cache 壓縮至約3-bit 級別,同時保持內積估計的無偏性和高精度。
基準測試表現:全面領先,完美適配長上下文谷歌團隊在 Gemma、Mistral 等開源模型上進行了廣泛驗證:
LongBench(涵蓋長文本問答、代碼生成、摘要等任務):TurboQuant 匹配或超越現有 KIVI 等基線,全面領先。Needle In A Haystack等檢索任務:實現完美下游得分,同時 KV 內存壓縮至少6倍。Nvidia H100實測:4-bit 配置下,注意力 logits 計算速度最高提升8倍。在 GloVe 等向量數據集上,TurboQuant 的召回率也優于 PQ、RabbiQ 等傳統方法。
AIbase 點評:TurboQuant 無需模型重訓或微調,可直接應用于現有 LLM,適用于任何依賴向量量化的場景,包括數據庫檢索、推薦系統和向量搜索引擎。這不僅能讓單張消費級 GPU 支持更長的上下文(如數十萬 token),還顯著降低企業級 AI 服務的硬件門檻。
行業意義:AI 推理效率新標桿隨著長上下文、多模態應用爆發,KV Cache 內存已成為 AI 基礎設施的核心制約。TurboQuant 的“近最優、數據無關”量化框架,為高效推理開辟新路徑。谷歌研究表示,該技術已在 ICLR2026等會議相關論文中詳細闡述,相關代碼和實現細節有望逐步開源。
未來,TurboQuant 有望被集成到 vLLM、TensorRT 等主流推理框架中,進一步推動 AI 部署的民主化與規模化。









