AIPress.com.cn報道
Anthropic 發布了一份基于 2026 年數據的教育報告,分析了近萬次對話,揭示了人們使用 Claude 的真實水平。
為了量化"AI熟練度",研究團隊使用了一套包含24種行為指標的框架,其中11種可以直接從對話中觀察到。團隊分析了2026年1月一周內Claude.ai上的9830段多輪對話,逐一判斷這些行為是否出現,最終形成了一個AI熟練度基準指數。
核心發現一:多聊幾輪的人,水平遠超一問一答的人
85.7%的對話表現出了"迭代和優化"的特征,也就是用戶不會拿到第一個回答就結束,而是繼續追問和調整。這些對話平均比一問一答的對話多展現2.67種熟練度行為,大約是后者的兩倍。差距在評估環節尤其明顯:有迭代的對話中,用戶質疑AI推理的概率是無迭代對話的5.6倍,發現信息遺漏的概率是4倍。
簡單說,愿意跟AI多聊幾輪的人,才是真正在和AI協作,而不是把它當搜索引擎用。
核心發現二:AI產出越精致,人越不愿挑毛病
12.3%的對話涉及代碼、文檔、交互工具等實際產出。在這類對話中,用戶前期引導AI的積極性明顯更高,比如主動明確目標、指定格式、提供示例。但到了審查環節,表現反而更差:識別遺漏信息的概率低了5.2個百分點,核實事實低了3.7個百分點,質疑推理邏輯低了3.1個百分點。
可能的原因是AI產出看起來太完整了,用戶覺得既然成品像模像樣,就沒必要再深究。但問題在于,越復雜的任務AI越容易出錯,而這些任務的產出往往看起來最專業。
研究團隊基于數據給出了三條改進方向。第一,別拿到第一個答案就走,繼續追問和調整。第二,越是看著完美的輸出越要多審視,停下來問一句"這個真的對嗎"。第三,在對話開頭就設定協作規則,數據顯示只有30%的用戶會這么做,比如告訴AI"如果我的假設有問題請直接指出來"或者"先帶我走一遍你的推理過程"。
團隊也坦承了幾個局限:樣本偏向早期采用者,只有一周數據,只覆蓋Claude.ai平臺,24種行為只評估了11種可觀察的,而且行為分類比較粗糙。用戶可能在腦子里做了很多評估但沒在對話中表達出來,這一點在有實際產出的場景中尤其明顯。
未來Anthropic計劃做新老用戶對比分析,用定性方法評估對話外的行為,并探索因果關系,比如鼓勵多輪迭代是否真的能提升批判性思維。










