滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

谷歌TurboQuant算法革新：LLM鍵值緩存內(nèi)存銳減6倍，速度飆升8倍且精度無(wú)損

時(shí)間：2026-03-27 03:14:54 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

谷歌研究團(tuán)隊(duì)近日宣布推出一項(xiàng)名為T(mén)urboQuant的突破性向量量化壓縮算法，該技術(shù)通過(guò)創(chuàng)新雙階段壓縮框架，成功將大語(yǔ)言模型推理過(guò)程中的鍵值緩存（KV Cache）內(nèi)存需求降低至少6倍，同時(shí)在Nvidia H100 GPU上實(shí)現(xiàn)注意力計(jì)算速度最高8倍的提升。這項(xiàng)成果在保持模型精度的前提下，為長(zhǎng)上下文AI應(yīng)用的規(guī)模化部署提供了關(guān)鍵技術(shù)支撐。

在長(zhǎng)序列處理場(chǎng)景中，大語(yǔ)言模型需要維護(hù)由鍵向量和值向量組成的緩存結(jié)構(gòu)，這些高維數(shù)據(jù)雖能加速注意力計(jì)算，但其內(nèi)存消耗會(huì)隨上下文長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)向量量化方法雖能壓縮數(shù)據(jù)規(guī)模，但需要額外存儲(chǔ)縮放因子、零點(diǎn)等全精度常數(shù)，每個(gè)數(shù)值會(huì)引入1-2bit的額外開(kāi)銷，導(dǎo)致實(shí)際壓縮效果大打折扣。這種內(nèi)存瓶頸已成為制約模型推理效率和部署規(guī)模的核心障礙。

TurboQuant的核心創(chuàng)新在于構(gòu)建了PolarQuant與QJL的無(wú)訓(xùn)練雙階段壓縮框架。第一階段采用極坐標(biāo)角度壓縮技術(shù)，通過(guò)隨機(jī)旋轉(zhuǎn)向量后轉(zhuǎn)換為極坐標(biāo)形式，利用角度值的天然范圍特性消除傳統(tǒng)量化所需的邊界歸一化存儲(chǔ)。第二階段引入1-bit糾錯(cuò)的量化Johnson-Lindenstrauss變換，在降維處理后采用極簡(jiǎn)的±1符號(hào)進(jìn)行量化，配合專門(mén)設(shè)計(jì)的無(wú)偏估計(jì)器，在注意力分?jǐn)?shù)計(jì)算階段實(shí)現(xiàn)零內(nèi)存開(kāi)銷的誤差修正，確保內(nèi)積估計(jì)的無(wú)偏性。

實(shí)驗(yàn)數(shù)據(jù)顯示，該技術(shù)可將KV Cache壓縮至約3-bit精度級(jí)別。在Gemini、Mistral等開(kāi)源模型的基準(zhǔn)測(cè)試中，TurboQuant在LongBench長(zhǎng)文本任務(wù)集上全面超越KIVI等現(xiàn)有方案，在"大海撈針"檢索任務(wù)中實(shí)現(xiàn)完美下游得分的同時(shí)保持6倍以上內(nèi)存壓縮率。硬件實(shí)測(cè)表明，4-bit配置下注意力logits計(jì)算速度提升達(dá)8倍，在GloVe向量數(shù)據(jù)集上的召回率表現(xiàn)亦優(yōu)于PQ、RabbiQ等傳統(tǒng)方法。

這項(xiàng)技術(shù)的突出優(yōu)勢(shì)在于其即插即用的兼容性。由于無(wú)需模型重訓(xùn)或微調(diào)，TurboQuant可直接應(yīng)用于現(xiàn)有大語(yǔ)言模型，覆蓋數(shù)據(jù)庫(kù)檢索、推薦系統(tǒng)、向量搜索等依賴向量量化的全場(chǎng)景。實(shí)際應(yīng)用中，單張消費(fèi)級(jí)GPU即可支持?jǐn)?shù)十萬(wàn)token的長(zhǎng)上下文處理，企業(yè)級(jí)AI服務(wù)的硬件成本將顯著降低。研究團(tuán)隊(duì)透露，相關(guān)技術(shù)細(xì)節(jié)已在ICLR2026等學(xué)術(shù)會(huì)議論文中完整披露，代碼實(shí)現(xiàn)有望逐步開(kāi)源。

隨著多模態(tài)大模型和長(zhǎng)上下文應(yīng)用的快速發(fā)展，KV Cache內(nèi)存優(yōu)化已成為AI基礎(chǔ)設(shè)施建設(shè)的核心挑戰(zhàn)。TurboQuant通過(guò)構(gòu)建"近最優(yōu)、數(shù)據(jù)無(wú)關(guān)"的量化框架，為高效推理開(kāi)辟了新路徑。該技術(shù)若能順利集成至vLLM、TensorRT等主流推理框架，將進(jìn)一步推動(dòng)AI技術(shù)從實(shí)驗(yàn)室走向規(guī)模化商用，加速實(shí)現(xiàn)智能服務(wù)的民主化進(jìn)程。

03-27

前SpaceX工程師創(chuàng)業(yè)：Sift Stack為制造業(yè)打造AI時(shí)代數(shù)據(jù)管理新引擎

03-27

疑似特斯拉Model Y L車(chē)身現(xiàn)身得州超級(jí)工廠，馬斯克曾稱短期不會(huì)登陸美國(guó)

03-27

特斯拉或在準(zhǔn)備新車(chē)型馬斯克透露比小型貨車(chē)炫酷的多

03-27

iQOO Z11評(píng)測(cè)：續(xù)航高刷雙封神重新定義中端機(jī)體驗(yàn)

03-27

商業(yè)航天“五小龍”競(jìng)逐：誰(shuí)能率先突圍，成就中國(guó)版SpaceX傳奇？

算明白了商業(yè)火箭發(fā)射和回收的賬之后，下一步才是商業(yè)航天的估值想象力所在。但成本不是估值的決定性因素，目前一級(jí)市場(chǎng)更看重的，其實(shí)是第二個(gè)維度，即在未來(lái)的中國(guó)星網(wǎng)+垣信衛(wèi)星的“中國(guó)星鏈”版圖中，各家民營(yíng)火箭…

03-27

十年磨一劍，宇樹(shù)科技人形機(jī)器人“出海”領(lǐng)跑，上市潮中能否續(xù)寫(xiě)傳奇？

03-27

AI浪潮下真人短劇何去何從？用心打磨精品仍能穩(wěn)立潮頭

03-27

山東燕魯新能源回應(yīng)起訴小米汽車(chē)外觀專利案：3月25日已和解細(xì)節(jié)暫保密

03-27

小米SU7新招應(yīng)對(duì)租借車(chē)風(fēng)險(xiǎn)：車(chē)主管理模式+新手保護(hù)，安全駕駛雙保障

03-27

特斯拉新車(chē)型研發(fā)中，馬斯克放話：比小型貨車(chē)更酷，未來(lái)出行新選擇？

03-27

泡泡瑪特與英偉達(dá)“同病相憐”：業(yè)績(jī)狂飆后，如何尋健康增長(zhǎng)新路徑？

03-27

人形機(jī)器人賽道“群雄逐鹿”，宇樹(shù)科技上市能否搶占先機(jī)？

03-27

小馬智行2025年?duì)I收穩(wěn)步增長(zhǎng) Robotaxi業(yè)務(wù)爆發(fā) 2026年計(jì)劃大規(guī)模擴(kuò)張

03-27

小米Xiaomi MiMo新模型受熱捧限免活動(dòng)延長(zhǎng)至兩周免費(fèi)開(kāi)放

03-27

點(diǎn)擊查看更多 +

全站最新

晉江文學(xué)城涉多起名譽(yù)權(quán)糾紛

聯(lián)想集團(tuán)發(fā)布企業(yè)級(jí)"龍蝦湖"解決方案，每百萬(wàn)Tokens成本降至1元以下

6.58萬(wàn)元起！零跑A10全球上市，重塑10萬(wàn)內(nèi)純電SUV價(jià)值新標(biāo)桿

赤子城科技2025年業(yè)績(jī)高增：總營(yíng)收近70億，同比增長(zhǎng)超35%

石藥集團(tuán)(01093.HK)獲執(zhí)行董事兼主席蔡?hào)|晨增持4940萬(wàn)股

祖龍娛樂(lè)(09990.HK)獲主席兼執(zhí)行董事李青增持20萬(wàn)股

熱門(mén)內(nèi)容

本欄最新

Token經(jīng)濟(jì)浪潮涌動(dòng)：浙江如何布局算力與電力，搶占未來(lái)先機(jī)？

人形機(jī)器人賽道“群雄逐鹿”，宇樹(shù)科技上市能否領(lǐng)跑未來(lái)？

2026年2月山東汽車(chē)銷量揭曉：傳統(tǒng)燃油車(chē)領(lǐng)跑，這款車(chē)月銷2575臺(tái)奪冠

小米汽車(chē)陷專利糾紛風(fēng)波，與山東老頭樂(lè)車(chē)企迅速達(dá)成和解引猜測(cè)

廣汽豐田鉑智7上市在即，鴻蒙座艙加持，還將融入更多小米生態(tài)元素

小米SU7重構(gòu)汽車(chē)消費(fèi)鏈：用戶信任成關(guān)鍵，友商“對(duì)標(biāo)”為何難奏效？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

谷歌TurboQuant算法革新：LLM鍵值緩存內(nèi)存銳減6倍，速度飆升8倍且精度無(wú)損