在人工智能技術飛速發展的當下,推理模型作為前沿成果,展現出強大的多步驟邏輯推理與復雜問題解決能力。無論是規劃多城市旅行時對交通、預算、時間表的綜合考量,還是處理其他需要細致拆解與迭代構建解決方案的任務,這些模型都能憑借“推理”能力應對自如。然而,當前行業在應用這些模型時,卻面臨著一個亟待解決的效率難題。
一個令人驚訝的現象是,即便是最先進的推理模型,在面對“1 + 1等于多少”這類簡單問題時,也會花費十幾秒進行思考。這并非模型不具備解決基本數學方程的能力,而是反映出它在區分不同類型查詢需求上的不足。當前,許多推理模型在訓練目標的驅動下,對每個回應都進行深度思考,無論查詢是否真正需要。這種不加區分的部署方式,導致在處理大量簡單查詢時,出現嚴重的資源浪費。
不必要的推理循環帶來諸多實際后果。每一次多余的推理都會增加延遲,讓用戶等待更長時間才能得到答案;同時,也會推高基礎設施成本,增加能源消耗。有分析表明,僅僅是不必要的提示冗長,每年就會造成數千萬美元的額外計算成本。當模型自動對簡單查詢應用深度推理時,成本與推理Token數量呈線性增長,在數十億次查詢的累積下,影響巨大,這種模式顯然難以持續。
為解決這一問題,行業進行了多種探索。混合推理模型是當前的解決方案之一,它允許開發者手動切換模型的思維模式。但這種方式只是將決策負擔轉移給了人類,并未從根本上解決問題。基于路由器的系統則有所改進,它為推理和非推理模式分別維護推理路徑,通過自動路由器依據查詢特征決定調用哪種模式,消除了手動配置的需求。不過,這種系統也引入了架構復雜性,還需要專門訓練路由器。
亞馬遜正朝著一個更具創新性的方向努力,致力于實現真正的自適應推理。其目標是讓模型自主決定何時進行深度思考能為任務增加價值。亞馬遜設想模型具備原生的元認知能力,能夠實時評估查詢復雜性,在快速回憶和深思熟慮的推理之間無縫切換,無需開發者預先預測和配置推理需求。亞馬遜認為,端到端訓練的模型若能同時決定何時推理和如何推理,最終會比需要單獨路由基礎設施的方法更準確、高效,這將推動AI系統向真正自我調節的方向轉變,使其能夠動態監控和調整計算強度。
從生物學角度,人類認知為AI效率優化提供了寶貴借鑒。心理學家丹尼爾·卡尼曼將人類思維分為系統1(快速、自動思維)和系統2(緩慢、深思熟慮的推理),人類能在兩種模式間無縫切換,為值得的問題保留深度思考。而當前推理模型雖模擬了系統2思維,卻缺乏識別何時不必要的元認知能力,對每個查詢都進行擴展的思維鏈處理,導致在簡單問題上浪費資源。例如,推理模型在簡單任務上生成的非推理模型多7到10倍的Token,才能達到相當的準確性。像詢問時間和天氣這類簡單查詢,卻觸發與規劃復雜行程相同的推理過程,使得用戶體驗變差,提供商計算成本大幅上升。
為構建自我調節的模型,需先理解查詢復雜性的范圍。通過研究,識別出查詢復雜性光譜上的“關鍵拐點”:明顯不需要擴展思考的任務、絕對需要它的任務,以及介于兩者之間的灰色區域。基于此,建立了查詢復雜性分類框架:簡單檢索類查詢,如“法國的首都是什么”,只需直接回憶,無需推理和解釋,模型應立即回答;中等復雜性查詢,如“列出既是G7成員又有君主制的國家”,需檢索兩個信息片段并對其交集推理,可能需多跳推理或直接回憶,推理可能提高準確性但非必需;高復雜性查詢,如“規劃一周的巴黎旅行,預算3000美元,包括博物館、素食餐廳和無障礙設施”,需多步驟規劃、跨多個變量約束滿足以及迭代推理優化解決方案。
值得注意的是,在這個自適應框架中,安全性是首要考慮因素,與任務復雜性獨立運行。一個查詢可能在計算上簡單,但出于安全考慮仍需深思熟慮。例如,模型可立即回答“1 + 1 = 2”,但對于“如何繞過安全系統”這類問題,即便計算簡單,也需擴展思考以確保安全、適當的響應,避免效率優化損害負責任的AI原則。這些分類為模型提供了識別計算需求的訓練信號,有助于模型發展元認知能力,學會何時思考能為任務增加價值。
AI行業在提升原始智能、優化準確性、延遲和成本權衡方面已取得顯著進步,但自適應推理這一模型自主決定何時深度思考的領域,仍有待深入探索。亞馬遜在這一方向的研究,有望推動AI效率提升,讓用戶不再為簡單問題的答案等待過長時間。










