AIPress.com.cn報道
4月3日消息,谷歌宣布為Gemini API新增兩種服務層級,Flex Inference與Priority Inference,以幫助開發者在成本與系統可靠性之間進行更精細的權衡。新機制通過統一接口實現,使開發者能夠根據不同任務需求動態調整推理優先級。
隨著AI應用從簡單對話擴展到更復雜的Agent系統,開發者通常需要同時處理兩類任務:一類是無需即時響應的大規模后臺任務,例如數據處理或模型“思考”過程;另一類則是面向用戶的實時交互任務,如聊天機器人或Copilot工具。這兩類任務在延遲和穩定性上的需求差異較大。
此前,開發者往往需要在同步API與異步Batch API之間拆分架構以滿足不同需求。谷歌表示,新推出的Flex與Priority層級旨在簡化這一流程,使開發者能夠通過同一套同步接口處理不同類型的工作負載。
Flex Inference是一種面向成本優化的推理模式,適用于對延遲不敏感的任務場景。開發者在將請求設置為Flex層級后,可以以標準API約一半的價格運行模型,但相應地需要接受更高延遲以及較低的服務可靠性。谷歌表示,該模式適用于客戶關系管理數據更新、大規模研究模擬以及需要模型在后臺進行復雜推理的Agent工作流。
與之相對,Priority Inference則是面向關鍵業務場景的高可靠性推理服務。該模式在平臺負載較高時仍能優先處理請求,從而提高系統穩定性。若用戶的Priority流量超過配額,超出的請求會自動降級至標準服務層級,而不會直接失敗,以確保應用持續運行。
谷歌表示,Priority模式適用于實時客服系統、在線內容審核以及對響應速度和穩定性要求較高的應用場景。API返回結果還會標明實際使用的服務層級,使開發者能夠更清晰地了解性能表現與計費情況。
兩種新服務層級均可通過設置請求參數中的service_tier字段進行調用,并適用于Gemini API中的GenerateContent與Interactions接口。谷歌稱,這一機制旨在為開發者提供更靈活的成本與性能控制,以支持AI應用在生產環境中的規模化部署。(AI普瑞斯編譯)











