阿里正式推出全新千問旗艦推理模型Qwen3-Max-Thinking,該模型在事實知識、復雜推理、指令遵循等核心能力維度實現突破性進展。根據官方披露的19項權威基準測試數據,其綜合性能已達到GPT-5.2-Thinking、Claude-Opus-4.5等國際頂尖模型水平,在科學知識、數學推理、代碼編程等專項測試中更刷新多項SOTA紀錄。
這款總參數規模突破萬億的模型,通過大規模強化學習后訓練與推理技術創新,實現了性能的顯著躍升。其獨創的"自適應工具調用"機制,使模型能夠像專業人士般在對話中自主選擇并調用搜索引擎、代碼解釋器等工具,在緩解模型幻覺的同時,可提供實時信息檢索與復雜問題求解能力。實驗數據顯示,該功能使模型在科學知識測試GPQA Diamond中得分提升至92.8,較前代提升2.5個百分點。
在數學推理領域,Qwen3-Max-Thinking展現出卓越的邏輯演繹能力。在針對國際數學奧林匹克競賽題目的IMO-AnswerBench測試中,模型得分從89.5提升至91.5,解題準確率顯著提高。代碼編程方面,LiveCodeBench v6測試集上的表現從88.0躍升至91.4,證明其具備處理復雜編程任務的能力。
該模型的創新性體現在兩大核心技術突破:其一為自適應工具調用框架,通過規則與模型反饋的混合訓練模式,使模型能根據對話上下文智能選擇工具組合;其二為測試時擴展技術,采用經驗累積式多輪迭代策略,在保持相同計算資源消耗下,將關鍵基準測試成績平均提升2-3個百分點。這種自我反思機制使模型能有效利用歷史推理信息,避免重復計算。
目前,Qwen3-Max-Thinking已通過Qwen Chat平臺向公眾開放體驗,用戶可直接與具備工具調用能力的模型進行交互。開發者可通過阿里云百煉平臺調用API服務(模型標識:qwen3-max-2026-01-23),該接口已集成自適應工具調用與測試時擴展兩大核心功能。平臺提供的實時訪問鏈接顯示,模型在處理需要外部工具調用的復雜查詢時,響應流暢度與結果準確性均有顯著提升。
技術文檔詳細闡釋了創新機制的實現原理:在工具調用訓練階段,模型首先完成基礎工具使用微調,隨后在多樣化任務場景中進行強化學習,通過規則引擎與模型反饋的雙重指導優化工具選擇策略。測試時擴展技術則通過限制并行推理路徑數量,將節省的計算資源用于迭代式自我優化,使模型在處理不確定性問題時能動態調整推理策略。這種設計在保持響應速度的同時,顯著提升了復雜問題的解決能力。
















