紐約時報近期披露,硅谷正興起一股“tokenmaxxing”新潮流,meta與OpenAI的工程師們在企業內部展開激烈競爭,通過比較推理token消耗量來一決高下。黃仁勛在GTC 2026大會上更是拋出驚人提議,建議企業將token預算作為工程師薪酬體系的重要組成部分。OpenAI的數據顯示,過去一年間,企業客戶在推理token上的支出呈現出爆炸式增長,增幅高達320倍。
面對需求側的井噴式增長,供給側如何應對成為焦點。黃仁勛在主題演講中首次將“Tokenomics”概念引入AI領域,重新定義為衡量推理效率的經濟指標,其核心在于“Tokens per Watt”,即每瓦特電力能產出的token數量。他預測,到2027年,NVIDIA的Blackwell和Vera Rubin芯片訂單規模將達到1萬億美元。國內大模型廠商雖未使用“Tokenomics”這一術語,但“推理成本”或“token單價”的討論早已甚囂塵上,本質問題直指AI時代的基礎設施建設——誰來構建支撐推理需求的“發電廠”與“電網”?
過去三年,行業普遍認為,通過擴大數據中心規模、增加GPU數量即可解決問題,這一策略在模型訓練階段確實行之有效。然而,推理與訓練的邏輯截然不同:訓練是“一次性工程”,推理則是“高頻次、低延遲”的持續服務。當推理請求如潮水般涌來,將所有GPU集中于少數超大型數據中心反而可能成為瓶頸,真正的限制因素并非算力,而是物理定律——光速。
在GTC 2026大會上,全球最大的分布式計算平臺Akamai給出了系統性解決方案。這家擁有4400多個邊緣節點、覆蓋130多個國家的CDN領域先驅,通過三十年的技術積累,將業務版圖從內容分發擴展至安全、云計算,最終切入AI推理賽道。其核心論點清晰:AI推理必須走向分布式架構。
Akamai CTO辦公室高級副總裁Andy Champagne以“個人AI導播”場景為例:一場F1比賽有20多個4K機位同時拍攝,傳統模式下所有觀眾看到的是相同的畫面;若要實現個性化直播,如根據觀眾偏好切換車手或鏡頭角度,則需在邊緣節點實時合成數百萬路不同的4K視頻流。這種需求顯然無法通過單一數據中心滿足。類似邏輯在實時廣告插入、游戲NPC響應、AI語音助手等場景中同樣適用——AI一旦嵌入實時應用,就必須滿足其原有的延遲要求。
物理定律不會因GPU性能提升而改變。光在光纖中的傳播速度約為每秒20萬公里,從倫敦到美國東海岸的數據中心,單程延遲約28毫秒,往返則達56毫秒;東京至美國的往返延遲更高達134毫秒,這還未計算計算時間。對比游戲NPC需在50毫秒內響應、實時廣告插入需在100毫秒內完成全鏈路處理的場景,集中式架構的局限性顯而易見。
延遲之外,帶寬成本也是集中式架構的致命傷。Andy Champagne計算發現,1GW算力若集中于單一數據中心,使用Blackwell芯片進行視頻推理時,出口帶寬需求達75 Tbit/s;若分布至20個區域節點,每個節點僅需3.75 Tbit/s,集中式架構的出口流量是分布式的20倍。若采用下一代Vera Rubin芯片,集中式出口帶寬將飆升至135 Tbit/s,芯片性能越強,集中式架構的帶寬瓶頸反而越嚴重。Comcast專家從排隊論角度分析指出,集中式與分布式部署僅14毫秒的延遲差異,就會導致約30%的GPU利用率差距,這是物理定律層面的優勢,無法通過技術優化彌補。
Akamai的分布式推理邏輯與其三十年發展歷程一脈相承。Andy Champagne將AI發展時間線與互聯網類比:互聯網普及率已超95%,AI目前僅約7%,正處于“MySpace時代”,未來潛力巨大。當年Akamai通過CDN技術將集中式內容分發轉變為分布式架構,如今面對AI推理需求,方法論依然適用——“AI工廠創造智能,AI Grid分發智能”,沒有分布式推理的AI,如同沒有CDN的互聯網。
GTC 2026期間,NVIDIA將Akamai Cloud與AWS并列列為首批提供RTX PRO Blackwell Server Edition實例的云服務商,黃仁勛的合作伙伴展示墻上,Akamai赫然在列。NVIDIA電信業務全球副總裁Chris Penrose評價稱,Akamai通過運營AI Grid,為生成式AI、AI Agent和物理AI構建了連接組織,將智能直接推送至數據所在地。Akamai正式發布的全球規模NVIDIA AI Grid參考架構方案,將NVIDIA AI基礎設施深度集成至自身分布式網絡,成為首家將AI Grid從概念推向運營級別的廠商,底層采用NVIDIA AI Enterprise軟件棧、Blackwell架構GPU和BlueField DPU加速網絡。
對于正在部署推理基礎設施的AI團隊,現實問題不容忽視。首先,并非所有推理任務都需要H100這類頂級芯片。Akamai部署的RTX PRO 6000 Blackwell Server Edition在Token經濟性上表現突出,每小時2.5美元的全包價下,每美元Token產出是同類方案的2.1倍。其96GB GDDR7顯存和4000 TOPS FP4算力,在NVFP4精度下推理吞吐量比H100高60%以上,視頻編解碼能力更達112至132路,遠超定位訓練的H100。風冷設計也降低了邊緣機房的部署門檻。
其次,數據出站費用常被忽視。AI產品服務全球用戶時,視頻和模型響應產生的出站流量成本可能超過GPU租用費用。Akamai的出站價格僅為每GB 0.005美元,與主流云廠商形成鮮明對比。邊緣部署的經濟性在于,推理結果在本地生成并交付,無需跨越大洋傳輸。
最后,調度系統比算力更難構建。Akamai的AI編排器并非傳統負載均衡工具,而是綜合考慮模型親和性、GPU顯存占用、KV Cache狀態等AI場景特有因素,實現推理請求的實時路由。現場演示中,推理請求從巴黎節點無縫切換至加州節點,用戶無感知。這一能力源于Akamai近三十年的流量調度經驗,在AI場景中自然延伸。目前,Akamai的Blackwell GPU節點已覆蓋歐洲、亞太和美洲的19個區域,配合4400多個邊緣入網點,為出海AI團隊提供了東京、新加坡、孟買、雅加達等關鍵亞太節點的部署選項。
Akamai的轉型路徑,折射出互聯網基礎設施的演進邏輯。其差異化優勢在于,未從零建設數據中心,而是將運營近三十年的全球分布式網絡轉化為AI推理底座。這一策略能否成功,取決于其能否跟上AI硬件迭代速度,以及邊緣推理市場需求是否如預期爆發。但對于中國出海AI創業者而言,全球化部署推理能力已從“未來規劃”變為“當下需求”——合規要求、延遲門檻、成本壓力,是出海時必須跨越的三座大山。Akamai的邊緣推理平臺提供了一種新選擇:無需自建全球基礎設施,也無需依賴少數超大規模云,而是借助覆蓋130多個國家的分布式網絡,將推理服務部署至離用戶最近的地方。









