阿里巴巴國(guó)際數(shù)字商務(wù)集團(tuán)近日宣布,其研發(fā)團(tuán)隊(duì)成功推出名為Marco DeepResearch的深度研究智能體,該系統(tǒng)以8B參數(shù)規(guī)模實(shí)現(xiàn)了超越部分30B大型模型的性能表現(xiàn)。這項(xiàng)突破性成果通過系統(tǒng)性引入驗(yàn)證機(jī)制,解決了傳統(tǒng)AI研究工具在數(shù)據(jù)準(zhǔn)確性、推理可靠性等方面的核心痛點(diǎn),為人工智能輔助復(fù)雜研究提供了全新范式。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有AI研究工具普遍存在"三重盲點(diǎn)":數(shù)據(jù)準(zhǔn)備階段因模糊化處理導(dǎo)致答案歧義,學(xué)習(xí)過程缺乏中間驗(yàn)證步驟,實(shí)際工作時(shí)受限于固定搜索策略。這些問題相互疊加,常使AI系統(tǒng)在處理復(fù)雜任務(wù)時(shí)產(chǎn)生錯(cuò)誤累積效應(yīng)。以科技公司創(chuàng)始人識(shí)別任務(wù)為例,當(dāng)問題被改寫為"以水果命名的科技公司創(chuàng)立者"時(shí),系統(tǒng)可能同時(shí)將蘋果、黑莓等公司創(chuàng)始人列為候選答案。
為破解這一難題,研發(fā)團(tuán)隊(duì)構(gòu)建了貫穿全生命周期的驗(yàn)證體系。在數(shù)據(jù)生成環(huán)節(jié),創(chuàng)新采用知識(shí)圖譜逆向工程與智能體網(wǎng)絡(luò)探索雙路徑:前者通過"生成器-攻擊者-分析器"三角博弈確保問題答案唯一性,后者要求智能體先收集可靠證據(jù)再構(gòu)建問題。這種設(shè)計(jì)使合成數(shù)據(jù)的問題可回答率雖降至29%,但人工評(píng)估顯示90%以上樣本具備有效挑戰(zhàn)性。
訓(xùn)練階段引入多智能體驗(yàn)證框架,主智能體負(fù)責(zé)任務(wù)分解,搜索子智能體執(zhí)行具體查詢,驗(yàn)證子智能體則獨(dú)立檢查每個(gè)推理步驟。當(dāng)發(fā)現(xiàn)錯(cuò)誤時(shí),系統(tǒng)會(huì)記錄糾錯(cuò)軌跡并重新訓(xùn)練,形成"錯(cuò)誤診斷-策略修正"的閉環(huán)。這種機(jī)制使模型不僅學(xué)會(huì)正確答案,更掌握驗(yàn)證方法——在強(qiáng)化學(xué)習(xí)階段,系統(tǒng)通過組相對(duì)策略優(yōu)化,使模型在2000個(gè)高質(zhì)量樣本上獲得顯著性能提升。
實(shí)際工作時(shí)的"驗(yàn)證引導(dǎo)擴(kuò)展策略"構(gòu)成第三道防線。系統(tǒng)采用"全部丟棄"機(jī)制,當(dāng)檢測(cè)到推理退化時(shí)自動(dòng)重置上下文,避免錯(cuò)誤傳播;同時(shí)實(shí)施多候選答案并行驗(yàn)證,在時(shí)間預(yù)算內(nèi)持續(xù)探索更優(yōu)解。配合128K token的擴(kuò)展上下文窗口,該策略使模型在BrowseComp基準(zhǔn)測(cè)試中取得31.4分,較基線提升15分,在中文環(huán)境測(cè)試中更達(dá)到47.1分的領(lǐng)先水平。
實(shí)驗(yàn)數(shù)據(jù)顯示,Marco DeepResearch在六個(gè)權(quán)威基準(zhǔn)測(cè)試中全面超越同規(guī)模模型。在WebWalkerQA任務(wù)中,其69.6分的表現(xiàn)接近人類專家水平;面對(duì)需要跨頁面證據(jù)聚合的DeepSearchQA任務(wù),系統(tǒng)生成的答案集完整性較前代提升40%。特別值得注意的是,該模型在GAIA文本版任務(wù)中僅以0.5分微弱差距落后于4B參數(shù)的RE-TRAC模型,展現(xiàn)出小規(guī)模模型的巨大潛力。
技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)基于Qwen3-8B骨干模型,通過YaRN技術(shù)實(shí)現(xiàn)長(zhǎng)序列處理能力。工程優(yōu)化方面,采用Redis緩存系統(tǒng)減少重復(fù)計(jì)算,異步工具調(diào)用提升并發(fā)性能,使64個(gè)A100 GPU集群的訓(xùn)練效率提升30%。兩階段訓(xùn)練流程中,監(jiān)督微調(diào)階段結(jié)合開源數(shù)據(jù)集與12000個(gè)合成樣本,強(qiáng)化學(xué)習(xí)階段則通過二元獎(jiǎng)勵(lì)機(jī)制確保輸出質(zhì)量。
這項(xiàng)成果對(duì)AI輔助研究具有多重啟示。在學(xué)術(shù)領(lǐng)域,系統(tǒng)可自動(dòng)完成文獻(xiàn)調(diào)研、數(shù)據(jù)交叉驗(yàn)證等基礎(chǔ)工作,使研究者專注核心創(chuàng)新;商業(yè)應(yīng)用中,其可靠性驗(yàn)證機(jī)制特別適合市場(chǎng)分析、技術(shù)趨勢(shì)預(yù)測(cè)等場(chǎng)景;教育領(lǐng)域則可培養(yǎng)學(xué)生系統(tǒng)的研究方法論。研究團(tuán)隊(duì)正探索將驗(yàn)證機(jī)制擴(kuò)展至多模態(tài)領(lǐng)域,通過結(jié)合學(xué)術(shù)論文、專利數(shù)據(jù)庫(kù)等結(jié)構(gòu)化數(shù)據(jù),進(jìn)一步提升系統(tǒng)在專業(yè)領(lǐng)域的適用性。







