滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

復(fù)旦等高校聯(lián)合攻關(guān)：AI模型掌握“工具化思維” 復(fù)雜視覺任務(wù)迎突破

時(shí)間：2026-01-28 23:56:57 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

在人工智能領(lǐng)域，多模態(tài)大語言模型正面臨一個(gè)關(guān)鍵挑戰(zhàn)：如何突破單純依賴自身能力的局限，在復(fù)雜視覺任務(wù)中實(shí)現(xiàn)更高效的處理。近期，一項(xiàng)由多所頂尖高校聯(lián)合完成的研究為這一難題提供了創(chuàng)新解決方案，其開發(fā)的AdaReasoner系統(tǒng)通過引入工具使用機(jī)制，使AI模型在視覺推理任務(wù)中展現(xiàn)出接近人類專家的決策能力。

傳統(tǒng)AI模型在處理視覺任務(wù)時(shí)，往往像剛掌握基礎(chǔ)認(rèn)知的學(xué)生——能識(shí)別圖像內(nèi)容，卻難以應(yīng)對(duì)需要多步驟推理的復(fù)雜場景。例如規(guī)劃安全路徑時(shí)，既要避開障礙物又要計(jì)算最短距離；完成拼圖時(shí)，需同時(shí)把握整體結(jié)構(gòu)與局部細(xì)節(jié)。這些任務(wù)對(duì)人類而言輕而易舉，卻讓AI模型陷入困境。研究團(tuán)隊(duì)受人類行為啟發(fā)，提出讓AI像專業(yè)人士一樣主動(dòng)調(diào)用工具：當(dāng)需要精確測量時(shí)使用"虛擬標(biāo)尺"，當(dāng)需要路徑分析時(shí)啟動(dòng)"智能導(dǎo)航系統(tǒng)"，當(dāng)需要文字識(shí)別時(shí)調(diào)用"光學(xué)字符閱讀器"。

訓(xùn)練過程采用三階段漸進(jìn)式方法。在基礎(chǔ)學(xué)習(xí)階段，系統(tǒng)通過數(shù)萬例標(biāo)注數(shù)據(jù)掌握工具使用規(guī)范，這些案例特別包含失敗場景的反思記錄，幫助AI理解工具的適用邊界。強(qiáng)化學(xué)習(xí)階段引入動(dòng)態(tài)獎(jiǎng)勵(lì)機(jī)制：正確答案無論是否使用工具都獲滿分，但使用工具的錯(cuò)誤嘗試會(huì)根據(jù)工具使用合理性獲得部分分?jǐn)?shù)，純粹猜測則不得分。這種設(shè)計(jì)促使AI將工具視為風(fēng)險(xiǎn)控制手段而非簡單作弊工具。自適應(yīng)學(xué)習(xí)階段通過隨機(jī)重命名工具、變換參數(shù)表述等方式，迫使AI理解工具的功能本質(zhì)而非依賴表面特征。

實(shí)驗(yàn)數(shù)據(jù)顯示顯著性能提升。在視覺空間規(guī)劃任務(wù)中，基礎(chǔ)模型準(zhǔn)確率僅30%，使用AdaReasoner后躍升至97%。更引人注目的是，這種提升具有模型規(guī)模無關(guān)性：30億參數(shù)和70億參數(shù)的模型在使用工具后均達(dá)到相近性能水平，證明工具質(zhì)量比模型體量更重要。在跨任務(wù)測試中，僅經(jīng)過拼圖訓(xùn)練的模型在視覺規(guī)劃任務(wù)中準(zhǔn)確率從46.5%提升至75.8%；當(dāng)所有工具名稱和描述被完全替換后，模型仍能保持92%的任務(wù)完成率。

該系統(tǒng)展現(xiàn)出驚人的自適應(yīng)學(xué)習(xí)能力。在路徑規(guī)劃任務(wù)中，AI對(duì)ASTAR工具的使用頻率從初始的0.2次/樣本逐步增加到1.1次/樣本；在驗(yàn)證任務(wù)中，AI主動(dòng)將ASTAR工具使用頻率降至接近零；對(duì)于持續(xù)有效的POINT工具，AI會(huì)根據(jù)任務(wù)復(fù)雜度動(dòng)態(tài)調(diào)整使用次數(shù)。這種智能決策能力使系統(tǒng)在工具使用統(tǒng)計(jì)特征上表現(xiàn)優(yōu)異：拼圖任務(wù)中工具調(diào)用成功率達(dá)98.5%，視覺搜索任務(wù)中達(dá)90.04%。

與現(xiàn)有方法相比，AdaReasoner在多個(gè)基準(zhǔn)測試中表現(xiàn)卓越。70億參數(shù)版本在視覺空間規(guī)劃和拼圖任務(wù)中超越GPT-5等大型專有模型，同時(shí)保持更低的計(jì)算資源消耗。研究團(tuán)隊(duì)指出，這項(xiàng)突破為AI發(fā)展開辟了新路徑：通過優(yōu)化工具使用效率而非單純擴(kuò)大模型規(guī)模，中小型開源模型也能達(dá)到頂尖性能水平。這種"工具增強(qiáng)型AI"模式可能重塑整個(gè)行業(yè)的發(fā)展方向，使高性能視覺推理系統(tǒng)更易于普及和應(yīng)用。

當(dāng)前研究仍存在局限性。現(xiàn)有工具集主要聚焦視覺處理領(lǐng)域，在開放場景中自動(dòng)發(fā)現(xiàn)和學(xué)習(xí)新工具的能力有待提升。工具的可靠性和計(jì)算效率也是實(shí)際應(yīng)用需要解決的問題。不過，這項(xiàng)研究已為構(gòu)建更智能的AI助手奠定基礎(chǔ)——未來的系統(tǒng)可能像人類專家一樣，根據(jù)任務(wù)需求自主選擇和組合工具，在遇到新問題時(shí)靈活調(diào)用適當(dāng)資源尋找解決方案。對(duì)于希望深入了解技術(shù)細(xì)節(jié)的讀者，可通過論文編號(hào)arXiv:2601.18631v1獲取完整研究報(bào)告。

02-08

英偉達(dá)Vera Rubin系統(tǒng)HBM4供應(yīng)格局明朗美光轉(zhuǎn)道CPU內(nèi)存尋突破

IT之家 2 月 7 日消息，據(jù)科技媒體 TechPower Up 今天報(bào)道，英偉達(dá)“Vera Rubin”AI 系統(tǒng)計(jì)劃今年夏季出貨，采用VR200 NVL72 服務(wù)器級(jí)解決方案，可用于驅(qū)動(dòng)下一代 AI …

02-08

全新一代理想L9：具身智能加持，以創(chuàng)新科技重塑旗艦SUV新標(biāo)桿

據(jù)悉，理想自研芯片和自研大模型作為“心臟”和“大腦”，自研操作系統(tǒng)作為“神經(jīng)”，全線控底盤、全主動(dòng)懸架作為“本體”，理想汽車初步形成了具身智能的全棧能力，全新一代理想L9是行業(yè)首個(gè)具身智能時(shí)代的旗艦SUV。全…

02-08

全新一代理想L9：具身智能加持打造60萬內(nèi)豪華SUV新標(biāo)桿

02-08

新款理想L9攜“終極版”登場，李想能否再創(chuàng)家庭SUV輝煌？

02-07

對(duì)話特斯拉陶琳：2026年特斯拉以AI為核布局未來出行與機(jī)器人新賽道

02-07

比亞迪方程豹鈦7第三次OTA升級(jí)來襲，16項(xiàng)新增7項(xiàng)優(yōu)化暢享智駕新體驗(yàn)

02-07

“十四五”成果斐然：我國網(wǎng)民規(guī)模達(dá)11.25億互聯(lián)網(wǎng)普及率超八成

截至2025年12月，我國網(wǎng)民規(guī)模達(dá)11.25億人，互聯(lián)網(wǎng)普及率突破80%。數(shù)字發(fā)展成果惠及更廣泛群體。根據(jù)報(bào)告，“十四五”期間，我國互聯(lián)網(wǎng)在覆蓋廣度與應(yīng)用深度上取得顯著進(jìn)展，在技術(shù)能力與創(chuàng)新水平上實(shí)現(xiàn)穩(wěn)…

02-07

光子芯片新突破：超低損耗“片上光纖”開啟精密測量與計(jì)算新紀(jì)元

陳豪敬表示，這一工作攻克了集成光子學(xué)領(lǐng)域長期存在的損耗瓶頸，它不是單一的應(yīng)用，而是從底層實(shí)現(xiàn)了平臺(tái)的突破。 “客觀地說，我們雖然邁出了用光纖材料實(shí)現(xiàn)低損耗光子芯片的第一步，甚至在可見到近紅外波段達(dá)到了領(lǐng)先水…

02-07

OpenAI戰(zhàn)略調(diào)整轉(zhuǎn)戰(zhàn)耳機(jī)市場基礎(chǔ)版AI耳機(jī)Dime或于2026年面世

IT之家 2 月 7 日消息，消息源 @智慧皮卡丘今天（2 月 7 日）在 X 平臺(tái)發(fā)布推文，透露 OpenAI 的首款硬件名為Dime（直譯為 10 美分），是一款類似蘋果 AirPods 的耳機(jī)產(chǎn)品。…

02-07

Xcode接入AI新勢力：蘋果借外援破局，iOS開發(fā)門檻降低迎來新機(jī)遇

這次在新版Xcode上，蘋果的思路也是簡單粗暴：既然市面上已經(jīng)有實(shí)力強(qiáng)大的AI編程工具，那么直接開放接口讓開發(fā)者自己選擇就好了。但蘋果的編程教程做得再通俗易懂、語言語法再簡單好學(xué)，都比不上「簡單幾句話，AI…

02-07

千問春節(jié)免單熱度不減，天貓超市AI購物助力輕松選購即時(shí)達(dá)

02-07

超低損耗“片上光纖”問世，為精密測量、AI算力、量子計(jì)算帶來新曙光

02-07

千問“請(qǐng)客”變“賽博要飯”？網(wǎng)友薅羊毛薅出AI新煙火氣

02-07

行業(yè)變局中，vivo堅(jiān)守“本分”初心，以用戶導(dǎo)向書寫科技新篇

02-07

點(diǎn)擊查看更多 +

全站最新

阿維塔06T現(xiàn)身工信部公告：華為激光雷達(dá)加持續(xù)航動(dòng)力參數(shù)亮眼

全新一代理想L9：具身智能加持，以創(chuàng)新科技重塑旗艦SUV新標(biāo)桿

2026年W5國內(nèi)手機(jī)銷量榜變動(dòng)：蘋果奪冠，華為緊隨，小米OV排名有新變化

華為影像旗艦“大跳水”，16GB+512GB直降3400元，成當(dāng)下?lián)炻﹥?yōu)選

7英寸巨屏手機(jī)或迎新動(dòng)態(tài)！兩家廠商正在評(píng)估，未來市場值得期待

雷軍駕駛小米SU7秀漂移神技畫面張力十足溫馨提醒：漂移需謹(jǐn)慎切勿盲目跟風(fēng)

熱門內(nèi)容

本欄最新

全新一代理想L9：具身智能加持，以創(chuàng)新科技重塑旗艦SUV新標(biāo)桿

全新一代理想L9：具身智能加持打造60萬內(nèi)豪華SUV新標(biāo)桿

比亞迪方程豹鈦7第三次OTA升級(jí)來襲，16項(xiàng)新增7項(xiàng)優(yōu)化暢享智駕新體驗(yàn)

固態(tài)電池真要“上車”了嗎？續(xù)航與安全雙提升，是未來還是泡沫？

2025款騰勢N7來襲！轎跑造型吸睛，科技內(nèi)飾豪華，續(xù)航動(dòng)力雙在線

追覓創(chuàng)始人再立“萬億目標(biāo)” 多元化布局引關(guān)注曾遭員工質(zhì)疑

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

復(fù)旦等高校聯(lián)合攻關(guān)：AI模型掌握“工具化思維” 復(fù)雜視覺任務(wù)迎突破