硅谷最近興起一種名為“tokenmaxxing”的新潮流,meta和OpenAI的工程師們甚至在公司內部設立了token消耗排行榜,競爭誰的使用量更高。在GTC 2026大會上,英偉達CEO黃仁勛提出了一個更為激進的想法,建議企業為工程師提供token預算,作為工資之外的額外收入。OpenAI的數據顯示,過去一年中,企業客戶在推理token上的消耗量激增了約320倍,需求呈現爆炸式增長。
面對如此龐大的需求,供給端如何應對?黃仁勛在同場演講中引入了“Tokenomics”概念,將其從加密貨幣領域延伸至AI推理經濟學,核心指標是“每瓦特電力產出的token數量”。他宣稱,推理技術的拐點已經到來,英偉達預計到2027年,Blackwell和Vera Rubin芯片的訂單量將達到1萬億美元。國內大模型廠商也在討論類似問題,只是用“推理成本”或“token單價”等術語表達。無論哪種說法,核心問題都是:當token成為AI時代的“水電煤”,誰來建設基礎設施?
過去三年,行業普遍認為解決方案是建設更大的數據中心并增加GPU數量。這一策略在訓練階段完全可行,但推理與訓練的邏輯截然不同。訓練是“一次性工程”,而推理需要重復數十億次,且對延遲極為敏感。當推理請求如洪水般涌來時,將所有GPU集中在少數超大型數據中心反而可能成為瓶頸。問題的關鍵不在于算力,而在于物理限制,尤其是光速。
在今年的GTC大會上,一家名為Akamai的公司對這一問題給出了系統性解答。盡管國內讀者可能對其不熟悉,但Akamai是全球CDN概念的開創者,也是目前最大的分布式計算平臺,擁有超過4400個邊緣節點,覆蓋130多個國家,承載著全球近三分之一的互聯網流量。該公司經歷了三次轉型,從CDN到安全,再到云計算和AI。今年GTC上,Akamai的兩個主題演講都圍繞一個核心觀點:AI推理必須走向分布式。
Akamai首席技術官辦公室高級副總裁Andy Champagne描述了一個“個人AI導播”的場景:在一場F1比賽中,20多個4K攝像頭同時拍攝,傳統做法是由導播間統一切換鏡頭,所有觀眾看到的畫面相同。但如果每個觀眾都能看到根據個人偏好定制的直播流,比如喜歡的車手或鏡頭角度,就需要在邊緣實時合成個性化視頻。幾百萬路不同的4K視頻流不可能由單一數據中心處理。類似邏輯也適用于游戲NPC響應、實時廣告插入、AI語音助手、電商推薦引擎等場景。AI一旦嵌入實時應用,就必須滿足該應用原有的延遲要求。
物理定律不會因GPU速度提升而改變。光在光纖中的傳播速度約為每秒20萬公里,從倫敦到美國東海岸數據中心的單程延遲約為28毫秒,往返則為56毫秒;從東京出發的往返延遲更高達134毫秒,這還不包括計算時間。考慮到這些場景的延遲要求,將推理任務全部集中在少數數據中心顯然不可行。
除了延遲,帶寬也是問題。Andy Champagne計算發現,1GW算力若集中在一個數據中心使用Blackwell芯片進行視頻推理,出口帶寬需求為75 Tbit/s;若分布到20個區域節點,每個節點僅需3.75 Tbit/s。集中式架構的出口流量是分布式的20倍,網絡成本差距顯著。若使用下一代Vera Rubin芯片,集中式架構的出口帶寬需求將飆升至135 Tbit/s,芯片速度越快,集中式架構的出口瓶頸越嚴重。Comcast的一位嘉賓從排隊論角度分析指出,在相同GPU和模型條件下,集中式與分布式部署僅14毫秒的往返延遲差異,就會導致約30%的GPU利用率差距。他強調:“這是物理定律層面的優勢,無法通過batching或提高tokens/s來彌補。”
Andy Champagne將AI的發展時間線與互聯網進行類比:互聯網普及率已超過95%,而AI目前約為7%。他認為AI仍處于“MySpace時代”,未來潛力巨大。這一類比揭示了Akamai布局分布式推理的底層邏輯:近三十年前,該公司解決了網頁和視頻的集中分發問題;如今,它試圖用同樣的方法解決AI推理的分發問題。他總結道:“AI工廠創造智能,AI Grid分發智能。”沒有分布式推理的AI,就像沒有CDN的互聯網。
在GTC期間,英偉達將Akamai Cloud與AWS一同列為首批提供RTX PRO Blackwell Server Edition實例的云服務商。黃仁勛在演講中展示的合作伙伴墻上,Akamai赫然在列。英偉達電信業務全球副總裁Chris Penrose評價稱,Akamai通過運營AI Grid,正在為生成式AI、AI Agent和物理AI構建連接組織,將智能直接推送到數據所在的地方。Akamai還正式發布了全球首個基于NVIDIA AI Grid參考架構的解決方案,將NVIDIA AI基礎設施深度集成到自身分布式網絡中,成為首家將AI Grid從概念推向運營級別的廠商。
對于正在考慮推理部署的AI團隊,有幾個現實問題需要面對。首先,并非所有推理任務都需要H100這類高端GPU。Akamai部署的RTX PRO 6000 Blackwell Server Edition是一個值得關注的選項:其每小時全包價為2.5美元,每美元token產出是同類方案的2.1倍;配備96GB GDDR7顯存和4000 TOPS FP4算力,在NVFP4精度下推理吞吐量比H100高出60%以上,視頻編解碼能力更是H100所不具備的。其風冷設計降低了邊緣機房的部署門檻。
其次,數據出站費用(Egress)常被忽視。許多團隊在做預算時僅關注GPU租用價格,卻忽略了全球服務產生的出站流量成本可能遠高于GPU費用。邊緣部署的經濟邏輯之一在于推理結果在本地生成和交付,無需跨越大半個地球回傳。Akamai的出站價格為每GB 0.005美元,與三大云廠商差距明顯。
最后,調度比算力更難。將GPU分布到全球各地只是第一步,更難的是讓每個請求找到最合適的機器。Akamai展示的AI編排器并非傳統負載均衡,而是考慮模型親和性、GPU顯存占用、KV Cache狀態等AI場景特有因素進行實時路由決策。現場演示中,推理請求從巴黎節點無縫切換到加州節點,用戶無感知。這背后是Akamai近三十年流量調度經驗的自然延續。目前,Akamai的Blackwell GPU節點已覆蓋歐洲、亞太和美洲的19個節點,配合4400多個邊緣入網點協同工作,東京、新加坡、孟買、雅加達等亞太節點對出海團隊尤為重要。
Akamai的轉型路徑反映了互聯網基礎設施的演進方向:它沒有從零建設數據中心,而是將已運行近三十年的全球分布式網絡轉化為AI推理的底座。這一策略能否成功,取決于其能否跟上AI硬件更新速度,以及邊緣推理市場需求是否如預期爆發。對中國出海AI創業者而言,全球化部署推理能力已從“未來問題”變為“當下挑戰”。合規、延遲和成本是出海時最現實的三座大山,而Akamai的邊緣推理平臺提供了一種新選擇:無需自建全球基礎設施,也無需依賴少數超大規模云,而是借助覆蓋130多個國家的分布式網絡,將推理任務運行在離用戶最近的地方。












