岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

OPPO AI新突破:"搜索多思考少"策略讓AI智能體效率與準(zhǔn)確率雙提升

   時(shí)間:2026-02-28 23:52:09 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 

在人工智能研究領(lǐng)域,OPPO AI團(tuán)隊(duì)近期提出了一項(xiàng)突破性框架——SMTL(Search More, Think Less),該框架通過重構(gòu)智能體的問題解決模式,為深度研究型AI系統(tǒng)開辟了新路徑。與傳統(tǒng)依賴長(zhǎng)時(shí)間推理的智能助手不同,SMTL采用并行信息獲取策略,將復(fù)雜任務(wù)分解為多個(gè)可同時(shí)執(zhí)行的子任務(wù),顯著提升了處理效率與結(jié)果準(zhǔn)確性。

研究團(tuán)隊(duì)將傳統(tǒng)AI比作埋頭苦思的學(xué)者,面對(duì)問題時(shí)往往需要逐步推導(dǎo),而SMTL則被形容為經(jīng)驗(yàn)豐富的圖書管理員——通過同時(shí)派遣多個(gè)助手搜集信息,再快速整合結(jié)果。這種策略在BrowseComp基準(zhǔn)測(cè)試中展現(xiàn)出顯著優(yōu)勢(shì):在最多100次交互內(nèi),平均推理步數(shù)減少70.7%,準(zhǔn)確率從41.2%提升至48.6%。實(shí)驗(yàn)數(shù)據(jù)顯示,SMTL-100模型僅需60.4步即可達(dá)到44.6%準(zhǔn)確率,而同類模型MiroThinker-v1.0需要206步才能實(shí)現(xiàn)41.2%的準(zhǔn)確率。

該框架的核心創(chuàng)新在于并行智能體工作流,其運(yùn)作機(jī)制包含三個(gè)階段:初始計(jì)劃構(gòu)建階段將任務(wù)拆解為可并行處理的子目標(biāo);并行執(zhí)行階段通過多線程工具調(diào)用(如網(wǎng)絡(luò)搜索與頁(yè)面抓取)同步獲取信息;動(dòng)態(tài)計(jì)劃完善階段則根據(jù)實(shí)時(shí)反饋調(diào)整任務(wù)優(yōu)先級(jí)。這種設(shè)計(jì)使系統(tǒng)每步平均執(zhí)行3.5次工具調(diào)用,信息密度較傳統(tǒng)方法提升3倍以上。研究團(tuán)隊(duì)特別強(qiáng)調(diào),并行策略并非簡(jiǎn)單增加計(jì)算量,而是通過優(yōu)化任務(wù)組織方式實(shí)現(xiàn)效率躍升。

訓(xùn)練過程采用兩階段策略:監(jiān)督微調(diào)階段使用蒸餾自DeepSeek-V3.2與GPT-5的軌跡數(shù)據(jù),強(qiáng)化學(xué)習(xí)階段則引入改進(jìn)的REINFORCE Leave-One-Out算法。為解決訓(xùn)練-推理不匹配問題,團(tuán)隊(duì)對(duì)rollout校正應(yīng)用序列級(jí)重要性采樣,并過濾由環(huán)境問題導(dǎo)致的負(fù)面軌跡。獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)上,系統(tǒng)僅對(duì)正確答案分配獎(jiǎng)勵(lì)1,同時(shí)對(duì)工具調(diào)用格式錯(cuò)誤實(shí)施零容忍策略,確保模型學(xué)習(xí)到高效的信息獲取模式。

在深度搜索任務(wù)評(píng)估中,SMTL在BrowseComp、XBench-DeepSearch和WebWalker-QA等基準(zhǔn)上均取得領(lǐng)先成績(jī)。特別是在300步預(yù)算設(shè)置下,其準(zhǔn)確率較基線模型提升5個(gè)百分點(diǎn),達(dá)到48.6%。開放式研究評(píng)估顯示,該框架在綜合性、洞察力深度與指令遵循等維度表現(xiàn)均衡,總體得分45.9%超越多個(gè)30B規(guī)模開源模型。案例分析表明,SMTL能在8個(gè)交互輪次內(nèi)定位關(guān)鍵證據(jù),而順序推理模型需要16輪次才能達(dá)到同等水平。

消融實(shí)驗(yàn)揭示了框架設(shè)計(jì)的關(guān)鍵要素:增加網(wǎng)絡(luò)搜索的top-k參數(shù)(返回結(jié)果數(shù)量)可顯著提升性能,當(dāng)top-k從4增至8時(shí),SMTL-300準(zhǔn)確率提升7.7%;而傳統(tǒng)模型依賴的交互步數(shù)擴(kuò)展對(duì)成功案例影響有限,失敗案例則與預(yù)算耗盡密切相關(guān)。這些發(fā)現(xiàn)印證了研究團(tuán)隊(duì)的假設(shè)——在長(zhǎng)視野搜索中,擴(kuò)展檢索廣度比增加推理深度更具效益。技術(shù)細(xì)節(jié)方面,SMTL通過溢出觸發(fā)壓縮方案管理上下文,采用目標(biāo)條件摘要技術(shù)提升爬取效率,并設(shè)計(jì)雙系統(tǒng)prompt分別支持不同任務(wù)類型。

該研究已開源代碼、模型與數(shù)據(jù)集,為學(xué)術(shù)界提供完整的研究基礎(chǔ)設(shè)施。實(shí)驗(yàn)結(jié)果表明,SMTL框架在保持結(jié)構(gòu)化任務(wù)處理能力的同時(shí),實(shí)現(xiàn)了推理成本與結(jié)果質(zhì)量的雙重優(yōu)化。這種"以搜索為中心"的設(shè)計(jì)范式,為開發(fā)能夠處理復(fù)雜現(xiàn)實(shí)問題的通用智能體提供了新思路,其并行信息整合機(jī)制尤其適用于需要多源數(shù)據(jù)驗(yàn)證的應(yīng)用場(chǎng)景。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 国产精品久久国产精品 | 麻豆精品国产免费 | 久久成人福利 | 亚洲国产成人精品综合99 | 伊人涩涩| 激情久久网站 | 亚洲天堂tv | 人人玩人人干 | 日韩中文字幕在线观看视频 | 亚洲精品123区 | 亚洲欧美日本在线观看 | 成人影片在线免费观看 | 精品国产乱码久久久久久蜜臀网站 | 黄色三级a | 福利在线观看 | 欧美资源网 | 天堂在线一区二区 | 午夜影院久久 | 黑人操亚洲女人 | 曰韩av | 日本专区 | 亚洲综合一区二区三区 | 超碰手机在线 | 久久久国产精品一区二区三区 | 国产夫妻自拍av | 免费又黄又爽又色的视频 | 国产福利影视 | 日韩经典一区二区三区 | 看特级毛片 | 在线综合视频 | 欧美日韩亚洲在线观看 | 我要看免费的毛片 | 在线观看免费黄色小视频 | 播播网色播播 | av网站在线播放 | 日韩av一区二区在线观看 | 中午字幕在线观看 | 男人操女人免费网站 | 午夜在线免费观看视频 | 毛片xxx| 亚洲综合精品 |