滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

谷歌 TurboQuant 重磅發布：LLM 鍵值緩存內存壓縮 6 倍、速度提升 8 倍，零精度損失、無需訓練！

時間：2026-03-27 00:51:37 來源：CHINAZ編輯：快訊 IP：北京 發表評論無障礙通道

3月26日消息，谷歌研究團隊（Google Research）近日正式推出全新向量量化壓縮算法TurboQuant，通過創新的 PolarQuant 與 QJL 技術，將大語言模型（LLM）推理過程中的內存需求減少至少6倍，在 Nvidia H100GPU 上注意力計算速度提升最高8倍，且在多項長上下文基準測試中實現零精度損失。這一突破性進展有望大幅降低 AI 部署成本，加速長上下文應用落地。

KV Cache 痛點:高維向量內存開銷巨大

LLM 在處理長序列時，需要維護鍵（Key）和值(Value)向量組成的緩存，這些高維向量用于快速計算注意力機制，避免重復計算。但隨著上下文長度增加，KV Cache 內存消耗呈爆炸式增長，成為制約模型推理效率和部署規模的主要瓶頸。

傳統向量量化方法雖能壓縮數據，卻需額外存儲量化常數（如縮放因子、零點等），這些常數通常以全精度保存，每個數值額外引入1-2bit 開銷，部分抵消了壓縮收益。

TurboQuant 核心創新:PolarQuant + QJL 雙階段壓縮

TurboQuant 采用兩階段無訓練壓縮框架，巧妙解決了傳統量化的開銷問題:

PolarQuant（極坐標角度壓縮）:

先對向量進行隨機旋轉，然后將笛卡爾坐標（X/Y/Z 等）轉換為極坐標形式(角度 + 半徑)。由于角度分布在固定可預測范圍內，該方法省去了傳統量化中所需的邊界歸一化存儲開銷，實現更高效的壓縮。

QJL（1-bit 糾錯，Quantized Johnson-Lindenstrauss）:

PolarQuant 壓縮后仍存在殘余誤差。QJL 利用 Johnson-Lindenstrauss 變換進行降維，再以極簡的1bit（+1/-1符號）進行量化。通過特殊的無偏估計器，在計算注意力分數時實現零額外內存開銷的誤差修正，確保整體過程無系統偏差。

兩者結合后，TurboQuant 可將 KV Cache 壓縮至約3-bit 級別，同時保持內積估計的無偏性和高精度。

基準測試表現:全面領先，完美適配長上下文

谷歌團隊在 Gemma、Mistral 等開源模型上進行了廣泛驗證:

LongBench（涵蓋長文本問答、代碼生成、摘要等任務）:TurboQuant 匹配或超越現有 KIVI 等基線，全面領先。Needle In A Haystack等檢索任務:實現完美下游得分，同時 KV 內存壓縮至少6倍。Nvidia H100實測:4-bit 配置下，注意力 logits 計算速度最高提升8倍。

在 GloVe 等向量數據集上，TurboQuant 的召回率也優于 PQ、RabbiQ 等傳統方法。

AIbase 點評:TurboQuant 無需模型重訓或微調，可直接應用于現有 LLM，適用于任何依賴向量量化的場景，包括數據庫檢索、推薦系統和向量搜索引擎。這不僅能讓單張消費級 GPU 支持更長的上下文（如數十萬 token），還顯著降低企業級 AI 服務的硬件門檻。

行業意義:AI 推理效率新標桿

隨著長上下文、多模態應用爆發，KV Cache 內存已成為 AI 基礎設施的核心制約。TurboQuant 的“近最優、數據無關”量化框架，為高效推理開辟新路徑。谷歌研究表示，該技術已在 ICLR2026等會議相關論文中詳細闡述，相關代碼和實現細節有望逐步開源。

未來，TurboQuant 有望被集成到 vLLM、TensorRT 等主流推理框架中，進一步推動 AI 部署的民主化與規模化。

更多>同類資訊

小米澎湃OS回應MIUI停更：已完成交棒未來將逐步退出維護

03-27

太空算力建設加速推進太空光伏迎發展契機催生萬億級市場新藍海

其核心功能涵蓋數據計算、AI 訓練與推理、通信鏈路構建、數據存儲等，可同時為地面終端及其他衛星提供專業化算力服務。 2025 年 11月，馬斯克公開提出并規劃未來在低軌每年部署 100GW 的太陽能AI 衛…

03-27

馬斯克透露：特斯拉新車計劃曝光，或顛覆大型SUV燃油車市場格局

03-27

小米汽車陷專利糾紛：“老頭樂”企業提無效宣告請求后雙方和解

03-27

小馬智行2025年營收穩健增長，Robotaxi業務爆發，車隊規模持續擴張

03-27

Meta前VR掌門人Hugo Barra回歸，攜團隊投身AI超級智能實驗室新征程

03-27

王騰維護雷軍：評論區調侃將被拉黑離職后仍顯敬重之情

03-27

董宇輝獲央視認可：口碑起伏間，堅守行業規范終迎高光

03-27

亞馬遜一周兩度布局機器人領域，收購Fauna Robotics加碼人形賽道

來源：環球網【環球網科技綜合報道】3月25日消息，據CNBC報道，亞馬遜周二證實已收購紐約初創公司Fauna Robotics，交易條款未披露。此次收購是亞馬遜一周內第二筆機器人領域并購，標志著其正式切入…

03-26

Sora關停轉型，中國AI視頻模型崛起，世界模型賽道誰主沉浮？

《眾神之戰》《儺神:血祭》等的作者狐利說表示：“ Sora 2倒下后，唯一可以可以和中國AIGC模型一拼的只剩下谷歌Veo 3了，個人認為中國AIGC出海全面占領各大內容市場只是時間問題，生態和認知領先不是…

03-26

快手2025年成績單：可靈AI崛起，電商與商業化融合下的新增長路徑

在財報發布后的電話會議上，快手科技創始人兼CEO程一笑表示，未來將推動AI能力從單向被動問答向長線理解與復雜任務處理升級，并進一步拓展至線上營銷服務、電商等核心營收場景，研發具備多模態交互能力的實用型智能助…

03-26

谷歌推出Lyria 3 Pro音樂生成模型：3分鐘長音軌創作，創意控制更出色

谷歌在周三宣布發布Lyria 3 Pro音樂生成模型，距離Lyria 3發布僅一個月時間。使用Lyria 3和Lyria 3Pro創建的所有音軌都會標記SynthID，以表明使用了AI來制作該音軌。 A…

03-26

Meta發力中小企業扶持：借AI降低創業難度，共享超級智能繁榮成果

03-26

特斯拉新車型研發中，馬斯克放話：比小型貨車更酷，賽博SUV或成新寵？

03-26

得州超級工廠驚現疑似特斯拉Model Y L車身，馬斯克曾言其美國落地存變數

03-26

點擊查看更多 +

全站最新

Token經濟浪潮涌動：浙江如何布局算力與電力，搶占未來先機？

人形機器人賽道“群雄逐鹿”，宇樹科技上市能否領跑未來？

智境訓練營首期活動落幕火山引擎ArkClaw安全方案獲開發者熱捧

預算有限如何挑耳夾式耳機？三款高性價比之選深度測評與推薦

資金動向 | 北水凈買入港股超33億港元，加倉中海油、快手

美國上周初請失業金人數升至21萬符合預期

熱門內容

本欄最新

Token經濟浪潮涌動：浙江如何布局算力與電力，搶占未來先機？

人形機器人賽道“群雄逐鹿”，宇樹科技上市能否領跑未來？

2026年2月山東汽車銷量揭曉：傳統燃油車領跑，這款車月銷2575臺奪冠

小米汽車陷專利糾紛風波，與山東老頭樂車企迅速達成和解引猜測

廣汽豐田鉑智7上市在即，鴻蒙座艙加持，還將融入更多小米生態元素

小米SU7重構汽車消費鏈：用戶信任成關鍵，友商“對標”為何難奏效？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

谷歌 TurboQuant 重磅發布：LLM 鍵值緩存內存壓縮 6 倍、速度提升 8 倍，零精度損失、無需訓練！