3月26日消息,谷歌發(fā)布了一個(gè)新算法,全網(wǎng)第一反應(yīng)不是討論技術(shù)細(xì)節(jié),而是集體喊話:你們應(yīng)該把它叫"Pied Piper"。
這個(gè)梗來自HBO經(jīng)典美劇《硅谷》。劇中虛構(gòu)的創(chuàng)業(yè)公司Pied Piper(魔笛手)的核心技術(shù)就是一種近乎無損的超級壓縮算法,能把文件壓得極小又不影響質(zhì)量。谷歌研究院周二發(fā)布的TurboQuant干的事情在概念上幾乎一模一樣——用極致壓縮技術(shù)解決AI系統(tǒng)中的核心瓶頸,而且號稱幾乎不損失性能。難怪網(wǎng)友們覺得現(xiàn)實(shí)追上了電視劇。
那TurboQuant到底做了什么?
簡單來說,它解決的是AI在推理階段的內(nèi)存瓶頸問題。
AI模型在運(yùn)行時(shí)有一種"工作內(nèi)存",技術(shù)上叫KV緩存(Key-Value Cache)。每當(dāng)模型處理信息、生成回答的時(shí)候,KV緩存就在飛速膨脹。上下文窗口越長,緩存占用的內(nèi)存就越大。這已經(jīng)成為制約AI系統(tǒng)效率和成本的一個(gè)核心瓶頸——不是模型不夠聰明,是運(yùn)行時(shí)的內(nèi)存不夠用。
TurboQuant用了一種向量量化的方法來壓縮這個(gè)緩存。谷歌研究院的說法是,這項(xiàng)技術(shù)可以讓AI在占用更少內(nèi)存空間的同時(shí)記住更多信息,并且保持準(zhǔn)確性。壓縮效果有多大?至少6倍。
實(shí)現(xiàn)這個(gè)壓縮效果的是兩項(xiàng)具體技術(shù):一個(gè)叫PolarQuant的量化方法,以及一個(gè)叫QJL的訓(xùn)練和優(yōu)化方法。研究團(tuán)隊(duì)計(jì)劃在下個(gè)月的ICLR 2026會議上正式發(fā)表這些成果。
這個(gè)突破讓科技行業(yè)相當(dāng)興奮。Cloudflare的CEO Matthew Prince甚至將其稱為"谷歌的DeepSeek時(shí)刻"。DeepSeek是去年引發(fā)轟動的中國AI模型,它用遠(yuǎn)低于競爭對手的成本和更差的硬件訓(xùn)練出了性能相當(dāng)?shù)哪P停C明了效率創(chuàng)新可以打破算力霸權(quán)的邏輯。Prince認(rèn)為TurboQuant在推理效率上的突破具有類似的顛覆性意義。
不過,把TurboQuant和DeepSeek相提并論還是需要打幾個(gè)折扣的。
首先,TurboQuant目前還是一個(gè)實(shí)驗(yàn)室成果,沒有在真實(shí)生產(chǎn)環(huán)境中大規(guī)模部署過。論文里的數(shù)字再漂亮,到了實(shí)際應(yīng)用中會遇到什么問題,現(xiàn)在還不知道。
其次,TurboQuant解決的只是推理階段的內(nèi)存問題,不涉及訓(xùn)練階段。AI訓(xùn)練仍然需要吞噬海量內(nèi)存,這一點(diǎn)TurboQuant幫不上忙。也就是說,即使TurboQuant被廣泛應(yīng)用,AI行業(yè)對內(nèi)存芯片的整體需求也不會因此大幅下降,因?yàn)橛?xùn)練端的內(nèi)存消耗只會越來越大。
電視劇里Pied Piper的壓縮技術(shù)是要徹底改變計(jì)算規(guī)則的。TurboQuant的目標(biāo)沒有那么宏大,但如果真的能在生產(chǎn)環(huán)境中實(shí)現(xiàn)6倍的推理內(nèi)存壓縮,對降低AI運(yùn)行成本的意義仍然非常可觀。當(dāng)每天要處理萬億級別token的推理請求時(shí),內(nèi)存占用縮減6倍帶來的成本節(jié)約是一個(gè)天文數(shù)字。
谷歌的研究員沒有把這個(gè)算法叫Pied Piper,大概是因?yàn)樗麄兏诤跽撐谋唤邮斩皇潜蛔龀杀砬榘5ヂ?lián)網(wǎng)已經(jīng)替他們完成了命名工作。






