Anthropic 近日正式推出其最新模型 Claude Sonnet 4.6,并宣稱這是目前性能最強(qiáng)的 Sonnet 系列版本。該模型在編碼、計算機(jī)操作、長上下文推理、智能體規(guī)劃、知識處理和設(shè)計等多個領(lǐng)域?qū)崿F(xiàn)了全面升級,同時保持了與前代 Sonnet 4.5 相同的價格體系:每百萬輸入 token 收費 3 美元,每百萬輸出 token 收費 15 美元。
在計算機(jī)使用能力方面,Claude Sonnet 4.6 延續(xù)了 2024 年 10 月首發(fā)的通用計算機(jī)操作模型技術(shù)路線。通過模擬真實軟件環(huán)境(如 Chrome、LibreOffice、VS Code 等)的 OSWorld 基準(zhǔn)測試顯示,該模型在處理復(fù)雜電子表格、多步驟網(wǎng)頁表單填寫等任務(wù)時已達(dá)到人類水平,并能在多個瀏覽器標(biāo)簽頁間整合信息。盡管目前仍落后于專業(yè)人類用戶,但其進(jìn)步速度顯著,且在抵抗提示注入攻擊方面較前代有重大改進(jìn),安全性能與同期發(fā)布的 Opus 4.6 持平。
技術(shù)團(tuán)隊通過對比圖表揭示了模型迭代軌跡:自 2024 年 10 月以來,Sonnet 系列在 OSWorld 基準(zhǔn)上的得分持續(xù)攀升。值得注意的是,2025 年 7 月更新的 OSWorld-Verified 基準(zhǔn)通過升級任務(wù)質(zhì)量評估體系和基礎(chǔ)設(shè)施,為模型能力驗證提供了更嚴(yán)格的測試環(huán)境。最新測試表明,Sonnet 4.6 在處理長上下文時表現(xiàn)尤為突出,其 100 萬 token 的超大窗口容量可完整容納代碼庫、長篇合同或數(shù)十篇研究論文,并在推理過程中保持高度一致性。
在 Vending-Bench Arena 商業(yè)模擬測試中,Sonnet 4.6 展現(xiàn)出獨特的戰(zhàn)略思維。該模型在運營初期大幅增加產(chǎn)能投資,支出遠(yuǎn)超競爭對手,隨后在第十個月突然轉(zhuǎn)向利潤最大化策略,最終以顯著優(yōu)勢領(lǐng)先。這種"先擴(kuò)張后收割"的運營模式,印證了其在長程規(guī)劃和資源分配方面的進(jìn)化。
用戶反饋數(shù)據(jù)顯示,約 70% 的開發(fā)者在代碼修改任務(wù)中更傾向選擇 Sonnet 4.6,認(rèn)為其上下文理解能力和邏輯整合效率顯著提升。在與 Opus 4.5 的對比測試中,59% 的用戶認(rèn)為新模型減少了過度工程化問題,在指令遵循、幻覺控制和多步驟執(zhí)行方面表現(xiàn)更優(yōu)。目前該模型已全面開放使用,覆蓋 Claude 套餐、Cowork 協(xié)作平臺、Code 開發(fā)環(huán)境及主流云平臺,免費用戶也可通過默認(rèn)升級體驗文件創(chuàng)建、連接器等新增功能。開發(fā)者可通過 Claude API 快速調(diào)用 claude-sonnet-4-6 接口進(jìn)行集成開發(fā)。











