3月26日消息,谷歌研究院推出全新AI內(nèi)存壓縮技術TurboQuant,精準破解AI推理的內(nèi)存瓶頸。
該技術可在不損失精度的前提下,將大語言模型緩存內(nèi)存占用至少縮減6倍,推理速度最高提升8倍。
AI模型運行時有一種“工作內(nèi)存”,即KV緩存(Key-Value Cache)。每當模型處理信息、生成回答時,KV緩存便會迅速膨脹,且上下文窗口越長,緩存占用的內(nèi)存越大。
這已成為制約AI系統(tǒng)效率與成本的核心瓶頸,并非模型不夠智能,而是運行時的內(nèi)存難以支撐。
TurboQuant采用向量量化的方法對緩存進行壓縮,使AI在占用更少內(nèi)存的同時記住更多信息,且保持準確性。實現(xiàn)這一效果的關鍵在于兩項技術:名為PolarQuant的量化方法,以及名為QJL的訓練與優(yōu)化手段。研究團隊計劃在下個月的ICLR 2026會議上正式發(fā)布相關成果。
研究團隊在Gemma和Mistral等開源大模型上進行了嚴格的基準測試。實驗數(shù)據(jù)顯示,TurboQuant無需任何預訓練或微調(diào),即可將鍵值緩存高效壓縮至3比特,在“大海撈針”等長上下文測試中實現(xiàn)零精度損失,內(nèi)存占用降至原來的六分之一。
在H100 GPU加速器上,4比特TurboQuant的運行速度較未量化的32比特基準提升了高達8倍。






