在人工智能領域,處理復雜任務的能力始終是衡量模型智能水平的關鍵指標。近期,阿里巴巴云計算團隊提出了一項突破性訓練框架D-CORE,通過創新的任務分解機制和思維訓練方法,成功破解了當前大語言模型在復雜工具使用中普遍存在的"無效思考"困境。這項研究成果已在國際學術平臺發布,為AI系統解決現實世界復雜問題提供了全新思路。
傳統大語言模型在處理單一任務時表現優異,例如查詢天氣或發送郵件等標準化操作。但當面對需要調用多個工具、協調多輪對話的復合型任務時,模型常陷入"思維空轉"狀態——產生大量冗余思考卻無法形成有效執行方案。研究團隊通過實驗發現,這類模型在復雜場景下的思考長度與正確率完全脫鉤,即便進行數千次反思仍無法提升任務完成質量,這種現象被形象地稱為"懶惰思考"。
D-CORE框架的突破性在于構建了雙階段訓練體系。第一階段采用"自我蒸餾"技術,通過向模型展示標準化的任務分解范例,使其掌握將復雜指令拆解為可執行子步驟的能力。例如面對"整理季度文檔并歸檔"的指令,模型能自動生成"定位文件→創建文件夾→復制文件"的清晰步驟鏈。第二階段引入"多樣性感知強化學習",通過熵優勢機制鼓勵模型在保持結構化思維的同時,使用更具信息量的詞匯進行深度思考,避免陷入機械化的操作模式。
在基準測試中,經過D-CORE訓練的模型展現出驚人性能。80億參數規模的模型在復雜工具使用測試中取得77.7%的準確率,較同類最優模型提升5.7個百分點;140億參數版本更以79.3%的準確率超越參數量達700億的巨型模型,這種"以小博大"的表現顛覆了傳統認知。特別是在多輪對話場景中,該模型將基礎版本的正確率從33%提升至63.8%,相當于在數學考試中從及格線躍升至優秀水平。
技術分析顯示,D-CORE框架成功重塑了模型的思維模式。在文件管理測試中,基礎模型產生1616詞冗余思考仍給出錯誤答案,而D-CORE模型僅用799詞就精準完成任務。這種效率提升源于框架對任務依賴關系的精準識別——模型能自動判斷哪些子任務需要順序執行,哪些可以并行處理,哪些工具調用實為冗余操作。
該技術的實用價值已在多個領域得到驗證。在智能客服場景中,D-CORE模型能同時處理改簽機票、申請退款、查詢積分等關聯請求;在企業辦公場景,可自動協調CRM查詢、庫存檢查、財務開票等跨系統流程;個人助手應用中,能將"安排出差"的模糊指令分解為航班查詢、酒店預訂、客戶會議等20余個具體操作步驟。測試數據顯示,模型在真實交互場景中的準確率提升幅度達到17%-18.6%。
研究團隊通過消融實驗證實,框架各組件存在顯著協同效應。單獨使用自我蒸餾雖能提升任務分解能力,但會犧牲反思深度;僅采用多樣性強化學習可增強思考靈活性,卻無法解決根本性的思維惰性。兩者的有機結合,使模型既保持結構化思維,又具備動態調整策略的智能特征。
這項突破為AI商業化應用開辟了新路徑。相比依賴參數規模擴張的傳統路線,D-CORE框架通過優化思維模式實現性能躍升,顯著降低了算力需求。目前,阿里巴巴團隊正推進該技術與多智能體系統、多模態交互等前沿領域的融合研究,探索讓AI系統具備更復雜的規劃推理能力和長期任務處理能力。
對于普通用戶而言,這項技術進步意味著人機協作將進入新階段。當AI助手學會像人類項目經理般拆解任務、協調資源、應對變化,我們與數字世界的交互將變得更加自然高效。從預訂復雜行程到管理企業流程,從處理客戶投訴到規劃個人事務,智能系統正在突破"工具"的局限,向真正的"數字伙伴"演進。





