Anthropic 近日正式推出其最新模型 Claude Sonnet 4.6,并宣稱這是目前性能最強的 Sonnet 系列版本。該模型在編碼、計算機操作、長上下文推理、智能體規劃、知識處理和設計等多個領域實現了全面升級,同時保持了與前代 Sonnet 4.5 相同的價格體系:每百萬輸入 token 收費 3 美元,每百萬輸出 token 收費 15 美元。
在計算機使用能力方面,Claude Sonnet 4.6 延續了 2024 年 10 月首發的通用計算機操作模型技術路線。通過模擬真實軟件環境(如 Chrome、LibreOffice、VS Code 等)的 OSWorld 基準測試顯示,該模型在處理復雜電子表格、多步驟網頁表單填寫等任務時已達到人類水平,并能在多個瀏覽器標簽頁間整合信息。盡管目前仍落后于專業人類用戶,但其進步速度顯著,且在抵抗提示注入攻擊方面較前代有重大改進,安全性能與同期發布的 Opus 4.6 持平。
技術團隊通過對比圖表揭示了模型迭代軌跡:自 2024 年 10 月以來,Sonnet 系列在 OSWorld 基準上的得分持續攀升。值得注意的是,2025 年 7 月更新的 OSWorld-Verified 基準通過升級任務質量評估體系和基礎設施,為模型能力驗證提供了更嚴格的測試環境。最新測試表明,Sonnet 4.6 在處理長上下文時表現尤為突出,其 100 萬 token 的超大窗口容量可完整容納代碼庫、長篇合同或數十篇研究論文,并在推理過程中保持高度一致性。
在 Vending-Bench Arena 商業模擬測試中,Sonnet 4.6 展現出獨特的戰略思維。該模型在運營初期大幅增加產能投資,支出遠超競爭對手,隨后在第十個月突然轉向利潤最大化策略,最終以顯著優勢領先。這種"先擴張后收割"的運營模式,印證了其在長程規劃和資源分配方面的進化。
用戶反饋數據顯示,約 70% 的開發者在代碼修改任務中更傾向選擇 Sonnet 4.6,認為其上下文理解能力和邏輯整合效率顯著提升。在與 Opus 4.5 的對比測試中,59% 的用戶認為新模型減少了過度工程化問題,在指令遵循、幻覺控制和多步驟執行方面表現更優。目前該模型已全面開放使用,覆蓋 Claude 套餐、Cowork 協作平臺、Code 開發環境及主流云平臺,免費用戶也可通過默認升級體驗文件創建、連接器等新增功能。開發者可通過 Claude API 快速調用 claude-sonnet-4-6 接口進行集成開發。













