阿里千問近日宣布推出一項名為DeepPlanning的新一代AI規劃基準測試,旨在評估人工智能在復雜現實場景中的全局規劃能力。與傳統推理任務不同,該測試要求AI系統在制定計劃時必須統籌兼顧,而非僅關注局部最優解。
測試場景涵蓋多維度現實需求:在旅行規劃任務中,AI需精確安排每日行程至分鐘級別,同時嚴格遵守預算上限和時間約束;購物優化場景則要求系統動態組合商品與優惠券,通過數學建模實現總支出最小化。這些"硬性條件"必須貫穿整個決策過程,而非僅在特定步驟滿足。
實測數據顯示,當前主流模型包括GPT-5.2、Claude 4.5、Gemini及Qwen 3,在長周期規劃一致性方面仍存在明顯局限。盡管這些模型在局部決策中表現優異,但當涉及多階段聯動優化時,仍會出現目標偏離或約束違反的情況,距離完全自主的智能決策體系尚有差距。
為推動行業技術進步,阿里千問已將DeepPlanning基準測試開源,開發者可通過Hugging Face平臺(https://huggingface.co/datasets/Qwen/DeepPlanning)或魔搭社區(https://www.modelscope.cn/datasets/Qwen/DeepPlanning)獲取完整數據集。該舉措預計將為AI規劃領域的研究提供標準化評估框架,加速通用智能體的研發進程。

















