AI智能體正從實驗室走向現(xiàn)實應(yīng)用場景,全球主要科技企業(yè)均已推出相關(guān)產(chǎn)品,但其在真實環(huán)境中的運(yùn)行模式仍籠罩在神秘面紗之下。近日,人工智能研究機(jī)構(gòu)Anthropic通過分析數(shù)百萬次人機(jī)交互數(shù)據(jù),首次系統(tǒng)梳理了AI智能體在實際部署中的關(guān)鍵特征,為行業(yè)提供了重要參考。
研究團(tuán)隊對Claude Code及其公共API的交互記錄進(jìn)行隱私保護(hù)分析后發(fā)現(xiàn),該模型單次連續(xù)自主運(yùn)行時長呈現(xiàn)顯著增長趨勢。在2025年10月至2026年1月期間,極端情況下(第99.9百分位)的自主運(yùn)行時間從25分鐘延長至45分鐘以上,而中位數(shù)時長穩(wěn)定在45秒左右。這種增長并非單純源于模型升級,用戶信任積累、任務(wù)復(fù)雜度提升以及產(chǎn)品優(yōu)化等因素同樣起到關(guān)鍵作用。
數(shù)據(jù)顯示,經(jīng)驗豐富的用戶更傾向于讓AI完全自主工作。當(dāng)用戶使用次數(shù)超過750次時,40%以上的會話采用全自動模式,而新用戶(使用次數(shù)少于50次)的這一比例僅為20%。值得注意的是,隨著使用經(jīng)驗增加,用戶主動打斷模型的比例從5%上升至9%,表明人類監(jiān)督并未減弱,而是轉(zhuǎn)向更精準(zhǔn)的干預(yù)時機(jī)。
在任務(wù)處理效率方面,Claude Code展現(xiàn)出顯著進(jìn)步。2025年8月至12月間,其處理高難度任務(wù)的成功率翻倍,同時每個會話的人工干預(yù)次數(shù)從5.4次降至3.3次。研究認(rèn)為,這表明AI在實際應(yīng)用中的自主空間可能超出用戶預(yù)設(shè)范圍,經(jīng)驗用戶更懂得如何釋放模型潛力。
不同復(fù)雜度任務(wù)中的人機(jī)協(xié)作模式呈現(xiàn)明顯差異。在修改單行代碼等簡單任務(wù)中,87%的工具調(diào)用需要人工參與;而在查找零日漏洞或編寫編譯器等復(fù)雜任務(wù)中,這一比例降至67%。研究指出,復(fù)雜任務(wù)往往由資深用戶發(fā)起,且步驟繁多導(dǎo)致實時審批困難,這是人工參與度下降的主要原因。
模型自身的風(fēng)險控制機(jī)制同樣值得關(guān)注。面對復(fù)雜任務(wù)時,Claude Code因不確定而主動請求澄清的次數(shù)是人類打斷次數(shù)的兩倍以上。這種自我約束行為被視為重要的安全機(jī)制,能夠有效預(yù)防潛在錯誤擴(kuò)散。研究強(qiáng)調(diào),智能體主動確認(rèn)問題比被動接受糾正更具預(yù)防價值。
在應(yīng)用領(lǐng)域分布方面,軟件工程占據(jù)AI智能體活動的近半壁江山,醫(yī)療、金融和網(wǎng)絡(luò)安全等高風(fēng)險領(lǐng)域也開始出現(xiàn)應(yīng)用案例。雖然目前高風(fēng)險操作占比不足1%,但其潛在影響不容忽視。研究特別指出,公共API執(zhí)行的操作中,絕大多數(shù)具有低風(fēng)險和可逆性特征。
這項研究也存在局限性。由于僅分析單一模型提供商的數(shù)據(jù),且對公共API的會話級行為缺乏完整觀察,結(jié)論的普適性有待驗證。基于此,研究團(tuán)隊向行業(yè)提出多項建議:加強(qiáng)部署后監(jiān)控系統(tǒng)建設(shè)、訓(xùn)練模型識別自身不確定性、開發(fā)更高效的用戶監(jiān)督工具,同時避免過早制定固定交互規(guī)范。











