滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

阿里巴巴新成果：AI智能體化身嚴(yán)謹(jǐn)研究員，開啟深度調(diào)研新范式

時(shí)間：2026-04-09 02:12:23 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

阿里巴巴國(guó)際數(shù)字商務(wù)集團(tuán)近日宣布，其研發(fā)團(tuán)隊(duì)成功推出名為Marco DeepResearch的深度研究智能體，該系統(tǒng)以8B參數(shù)規(guī)模實(shí)現(xiàn)了超越部分30B大型模型的性能表現(xiàn)。這項(xiàng)突破性成果通過系統(tǒng)性引入驗(yàn)證機(jī)制，解決了傳統(tǒng)AI研究工具在數(shù)據(jù)準(zhǔn)確性、推理可靠性等方面的核心痛點(diǎn)，為人工智能輔助復(fù)雜研究提供了全新范式。

研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有AI研究工具普遍存在"三重盲點(diǎn)"：數(shù)據(jù)準(zhǔn)備階段因模糊化處理導(dǎo)致答案歧義，學(xué)習(xí)過程缺乏中間驗(yàn)證步驟，實(shí)際工作時(shí)受限于固定搜索策略。這些問題相互疊加，常使AI系統(tǒng)在處理復(fù)雜任務(wù)時(shí)產(chǎn)生錯(cuò)誤累積效應(yīng)。以科技公司創(chuàng)始人識(shí)別任務(wù)為例，當(dāng)問題被改寫為"以水果命名的科技公司創(chuàng)立者"時(shí)，系統(tǒng)可能同時(shí)將蘋果、黑莓等公司創(chuàng)始人列為候選答案。

為破解這一難題，研發(fā)團(tuán)隊(duì)構(gòu)建了貫穿全生命周期的驗(yàn)證體系。在數(shù)據(jù)生成環(huán)節(jié)，創(chuàng)新采用知識(shí)圖譜逆向工程與智能體網(wǎng)絡(luò)探索雙路徑：前者通過"生成器-攻擊者-分析器"三角博弈確保問題答案唯一性，后者要求智能體先收集可靠證據(jù)再構(gòu)建問題。這種設(shè)計(jì)使合成數(shù)據(jù)的問題可回答率雖降至29%，但人工評(píng)估顯示90%以上樣本具備有效挑戰(zhàn)性。

訓(xùn)練階段引入多智能體驗(yàn)證框架，主智能體負(fù)責(zé)任務(wù)分解，搜索子智能體執(zhí)行具體查詢，驗(yàn)證子智能體則獨(dú)立檢查每個(gè)推理步驟。當(dāng)發(fā)現(xiàn)錯(cuò)誤時(shí)，系統(tǒng)會(huì)記錄糾錯(cuò)軌跡并重新訓(xùn)練，形成"錯(cuò)誤診斷-策略修正"的閉環(huán)。這種機(jī)制使模型不僅學(xué)會(huì)正確答案，更掌握驗(yàn)證方法——在強(qiáng)化學(xué)習(xí)階段，系統(tǒng)通過組相對(duì)策略優(yōu)化，使模型在2000個(gè)高質(zhì)量樣本上獲得顯著性能提升。

實(shí)際工作時(shí)的"驗(yàn)證引導(dǎo)擴(kuò)展策略"構(gòu)成第三道防線。系統(tǒng)采用"全部丟棄"機(jī)制，當(dāng)檢測(cè)到推理退化時(shí)自動(dòng)重置上下文，避免錯(cuò)誤傳播；同時(shí)實(shí)施多候選答案并行驗(yàn)證，在時(shí)間預(yù)算內(nèi)持續(xù)探索更優(yōu)解。配合128K token的擴(kuò)展上下文窗口，該策略使模型在BrowseComp基準(zhǔn)測(cè)試中取得31.4分，較基線提升15分，在中文環(huán)境測(cè)試中更達(dá)到47.1分的領(lǐng)先水平。

實(shí)驗(yàn)數(shù)據(jù)顯示，Marco DeepResearch在六個(gè)權(quán)威基準(zhǔn)測(cè)試中全面超越同規(guī)模模型。在WebWalkerQA任務(wù)中，其69.6分的表現(xiàn)接近人類專家水平；面對(duì)需要跨頁面證據(jù)聚合的DeepSearchQA任務(wù)，系統(tǒng)生成的答案集完整性較前代提升40%。特別值得注意的是，該模型在GAIA文本版任務(wù)中僅以0.5分微弱差距落后于4B參數(shù)的RE-TRAC模型，展現(xiàn)出小規(guī)模模型的巨大潛力。

技術(shù)實(shí)現(xiàn)層面，研究團(tuán)隊(duì)基于Qwen3-8B骨干模型，通過YaRN技術(shù)實(shí)現(xiàn)長(zhǎng)序列處理能力。工程優(yōu)化方面，采用Redis緩存系統(tǒng)減少重復(fù)計(jì)算，異步工具調(diào)用提升并發(fā)性能，使64個(gè)A100 GPU集群的訓(xùn)練效率提升30%。兩階段訓(xùn)練流程中，監(jiān)督微調(diào)階段結(jié)合開源數(shù)據(jù)集與12000個(gè)合成樣本，強(qiáng)化學(xué)習(xí)階段則通過二元獎(jiǎng)勵(lì)機(jī)制確保輸出質(zhì)量。

這項(xiàng)成果對(duì)AI輔助研究具有多重啟示。在學(xué)術(shù)領(lǐng)域，系統(tǒng)可自動(dòng)完成文獻(xiàn)調(diào)研、數(shù)據(jù)交叉驗(yàn)證等基礎(chǔ)工作，使研究者專注核心創(chuàng)新；商業(yè)應(yīng)用中，其可靠性驗(yàn)證機(jī)制特別適合市場(chǎng)分析、技術(shù)趨勢(shì)預(yù)測(cè)等場(chǎng)景；教育領(lǐng)域則可培養(yǎng)學(xué)生系統(tǒng)的研究方法論。研究團(tuán)隊(duì)正探索將驗(yàn)證機(jī)制擴(kuò)展至多模態(tài)領(lǐng)域，通過結(jié)合學(xué)術(shù)論文、專利數(shù)據(jù)庫(kù)等結(jié)構(gòu)化數(shù)據(jù)，進(jìn)一步提升系統(tǒng)在專業(yè)領(lǐng)域的適用性。

04-09

聯(lián)想ThinkPad X13 Gen 7日本發(fā)布 936g超輕設(shè)計(jì)成最輕ThinkPad

04-09

解鎖高效辦公新姿勢(shì)！17個(gè)步驟讓Claude Cowork變身全能助手

04-09

OpenClaw逆境重生：4.5版本升級(jí)內(nèi)置音視頻工具，強(qiáng)勢(shì)回應(yīng)封殺風(fēng)波

04-09

AI新模型能挖0-day漏洞引關(guān)注，網(wǎng)絡(luò)攻防將迎“人機(jī)混合”時(shí)代？

04-09

智元Genie Sim3.0升級(jí)：自然語言秒變?nèi)S場(chǎng)景，加速具身智能創(chuàng)新落地

04-09

紅果免費(fèi)短劇月活破3億：用戶粘性高，漫劇新賽道拓展勢(shì)頭猛

04-09

B站4月10日將推播放頁暫停廣告明確標(biāo)識(shí)可隨時(shí)關(guān)閉保障觀影體驗(yàn)

04-09

阿里組織架構(gòu)大變動(dòng)：通義實(shí)驗(yàn)室升級(jí)，李飛飛履新阿里云CTO加速AI布局

04-09

2026年4月圖生視頻測(cè)評(píng)揭曉：國(guó)產(chǎn)模型強(qiáng)勢(shì)登頂前三全面超越海外競(jìng)品

04-09

PearlError-包含視頻過濾

04-09

GPT-6成OpenAI關(guān)鍵一戰(zhàn)：若未達(dá)預(yù)期，市場(chǎng)信心與未來或雙雙受挫

04-09

谷歌CEO皮查伊：2027年或成AI改變工作方式重要轉(zhuǎn)折點(diǎn)

04-09

馬斯克xAI野心勃勃：Colossus 2助力同時(shí)訓(xùn)練7大模型 10萬億參數(shù)AI將至

04-09

京東JoyStreamer自由態(tài)數(shù)字人上線：動(dòng)作靈動(dòng)鏡頭跟拍，適配五大行業(yè)場(chǎng)景

上證報(bào)中國(guó)證券網(wǎng)訊（記者劉暄）上海證券報(bào)記者4月8日從京東獲悉，基于JoyAI大模型，京東數(shù)字人JoyStreamer推出自由態(tài)數(shù)字人，實(shí)現(xiàn)真人級(jí)動(dòng)作、鏡頭智能跟隨等三大體驗(yàn)升級(jí)，并推出高度適配家電家居、服…

04-09

點(diǎn)擊查看更多 +

全站最新

PearlError-包含視頻過濾

油價(jià)攀升別慌換電車，普通家庭選車，油車電車咋選才明智？

美股異動(dòng)丨Meta拉升大漲超9%，推出新AI模型Muse Spark，加碼追趕競(jìng)爭(zhēng)對(duì)手

京東JoyStreamer自由態(tài)數(shù)字人上線：動(dòng)作靈動(dòng)鏡頭跟拍，適配五大行業(yè)場(chǎng)景

小米YU7 GT蓄勢(shì)待發(fā)：商標(biāo)申報(bào)中紐北諜照曝光千匹馬力或創(chuàng)紀(jì)錄

江鈴集團(tuán)2026年一季度海外出口大漲69% 新能源與全球化布局齊頭并進(jìn)

熱門內(nèi)容

本欄最新

PearlError-包含視頻過濾

京東JoyStreamer自由態(tài)數(shù)字人上線：動(dòng)作靈動(dòng)鏡頭跟拍，適配五大行業(yè)場(chǎng)景

小米YU7 GT蓄勢(shì)待發(fā)：商標(biāo)申報(bào)中紐北諜照曝光千匹馬力或創(chuàng)紀(jì)錄

江鈴集團(tuán)2026年一季度海外出口大漲69% 新能源與全球化布局齊頭并進(jìn)

蘿卜快跑“熄火”引爭(zhēng)議：過度謹(jǐn)慎的安全策略是福還是禍？

字節(jié)跳動(dòng)33億再獲海淀學(xué)院路地塊加速布局AI研發(fā)與核心區(qū)域物業(yè)版圖

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

阿里巴巴新成果：AI智能體化身嚴(yán)謹(jǐn)研究員，開啟深度調(diào)研新范式