谷歌研究團(tuán)隊(duì)近日宣布推出一項(xiàng)名為T(mén)urboQuant的突破性向量量化壓縮算法,該技術(shù)通過(guò)創(chuàng)新雙階段壓縮框架,成功將大語(yǔ)言模型推理過(guò)程中的鍵值緩存(KV Cache)內(nèi)存需求降低至少6倍,同時(shí)在Nvidia H100 GPU上實(shí)現(xiàn)注意力計(jì)算速度最高8倍的提升。這項(xiàng)成果在保持模型精度的前提下,為長(zhǎng)上下文AI應(yīng)用的規(guī)模化部署提供了關(guān)鍵技術(shù)支撐。
在長(zhǎng)序列處理場(chǎng)景中,大語(yǔ)言模型需要維護(hù)由鍵向量和值向量組成的緩存結(jié)構(gòu),這些高維數(shù)據(jù)雖能加速注意力計(jì)算,但其內(nèi)存消耗會(huì)隨上下文長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)向量量化方法雖能壓縮數(shù)據(jù)規(guī)模,但需要額外存儲(chǔ)縮放因子、零點(diǎn)等全精度常數(shù),每個(gè)數(shù)值會(huì)引入1-2bit的額外開(kāi)銷,導(dǎo)致實(shí)際壓縮效果大打折扣。這種內(nèi)存瓶頸已成為制約模型推理效率和部署規(guī)模的核心障礙。
TurboQuant的核心創(chuàng)新在于構(gòu)建了PolarQuant與QJL的無(wú)訓(xùn)練雙階段壓縮框架。第一階段采用極坐標(biāo)角度壓縮技術(shù),通過(guò)隨機(jī)旋轉(zhuǎn)向量后轉(zhuǎn)換為極坐標(biāo)形式,利用角度值的天然范圍特性消除傳統(tǒng)量化所需的邊界歸一化存儲(chǔ)。第二階段引入1-bit糾錯(cuò)的量化Johnson-Lindenstrauss變換,在降維處理后采用極簡(jiǎn)的±1符號(hào)進(jìn)行量化,配合專門(mén)設(shè)計(jì)的無(wú)偏估計(jì)器,在注意力分?jǐn)?shù)計(jì)算階段實(shí)現(xiàn)零內(nèi)存開(kāi)銷的誤差修正,確保內(nèi)積估計(jì)的無(wú)偏性。
實(shí)驗(yàn)數(shù)據(jù)顯示,該技術(shù)可將KV Cache壓縮至約3-bit精度級(jí)別。在Gemini、Mistral等開(kāi)源模型的基準(zhǔn)測(cè)試中,TurboQuant在LongBench長(zhǎng)文本任務(wù)集上全面超越KIVI等現(xiàn)有方案,在"大海撈針"檢索任務(wù)中實(shí)現(xiàn)完美下游得分的同時(shí)保持6倍以上內(nèi)存壓縮率。硬件實(shí)測(cè)表明,4-bit配置下注意力logits計(jì)算速度提升達(dá)8倍,在GloVe向量數(shù)據(jù)集上的召回率表現(xiàn)亦優(yōu)于PQ、RabbiQ等傳統(tǒng)方法。
這項(xiàng)技術(shù)的突出優(yōu)勢(shì)在于其即插即用的兼容性。由于無(wú)需模型重訓(xùn)或微調(diào),TurboQuant可直接應(yīng)用于現(xiàn)有大語(yǔ)言模型,覆蓋數(shù)據(jù)庫(kù)檢索、推薦系統(tǒng)、向量搜索等依賴向量量化的全場(chǎng)景。實(shí)際應(yīng)用中,單張消費(fèi)級(jí)GPU即可支持?jǐn)?shù)十萬(wàn)token的長(zhǎng)上下文處理,企業(yè)級(jí)AI服務(wù)的硬件成本將顯著降低。研究團(tuán)隊(duì)透露,相關(guān)技術(shù)細(xì)節(jié)已在ICLR2026等學(xué)術(shù)會(huì)議論文中完整披露,代碼實(shí)現(xiàn)有望逐步開(kāi)源。
隨著多模態(tài)大模型和長(zhǎng)上下文應(yīng)用的快速發(fā)展,KV Cache內(nèi)存優(yōu)化已成為AI基礎(chǔ)設(shè)施建設(shè)的核心挑戰(zhàn)。TurboQuant通過(guò)構(gòu)建"近最優(yōu)、數(shù)據(jù)無(wú)關(guān)"的量化框架,為高效推理開(kāi)辟了新路徑。該技術(shù)若能順利集成至vLLM、TensorRT等主流推理框架,將進(jìn)一步推動(dòng)AI技術(shù)從實(shí)驗(yàn)室走向規(guī)模化商用,加速實(shí)現(xiàn)智能服務(wù)的民主化進(jìn)程。











