AI智能體正從技術概念加速融入現實應用場景,全球主要科技企業均已推出相關產品,但用戶對其實際運行模式仍存在認知盲區。近日,AI研究機構Anthropic發布的最新報告,通過分析數百萬次人機交互數據,首次呈現了AI智能體在真實環境中的行為特征與潛在風險。
研究團隊對旗下編程助手Claude Code的長期運行數據追蹤發現,該模型單次自主執行任務的最長時長在三個月內增長近一倍。2025年10月至2026年1月期間,其"任務執行周期"第99.9百分位時長從25分鐘延長至45分鐘以上,而中位數時長穩定在45秒左右。這種增長趨勢與模型版本迭代無顯著關聯,更多源于用戶信任度提升、任務復雜度增加以及產品交互優化。
用戶行為數據顯示,經驗積累顯著影響人機協作模式。新用戶(使用次數少于50次)僅在20%的會話中啟用全自動模式,而資深用戶(使用超750次)的該比例超過40%。值得注意的是,隨著使用時長增加,用戶主動中斷模型運行的頻率從5%上升至9%,同時模型因自身不確定性主動請求澄清的次數達到人類中斷次數的兩倍以上,形成雙向監督機制。
不同復雜度任務呈現差異化協作特征。在修改單行代碼等簡單任務中,87%的操作需要人工參與,而在查找軟件漏洞或開發編譯器等復雜場景中,人工介入比例降至67%。研究指出,復雜任務往往由技術熟練的用戶發起,其步驟的不可分割性導致人工審批難度增加,這促使系統更依賴模型自主判斷。
風險評估顯示,當前AI智能體操作集中在低風險領域,軟件工程相關活動占比近半,但醫療、金融等高敏感領域已出現應用案例。盡管高風險操作占比不足1%,其潛在危害不容忽視。研究特別指出,現有監控體系對公共API的會話級行為存在觀測盲區,且分析樣本僅覆蓋單一模型提供商,結論外推需謹慎。
基于研究結果,報告提出四項建議:構建實時監控基礎設施以捕捉異常行為,強化模型對自身不確定性的感知能力,開發支持用戶監督的交互界面,以及避免過早制定標準化協作規范。這些措施旨在平衡技術創新與風險管控,為AI智能體的規模化應用提供參考框架。










