全球知名評測機構ClawBench最新發布的大型模型榜單引發行業關注,北京三家人工智能企業的四款模型成功躋身全球前十,展現了中國AI技術的強勁實力。其中智譜科技研發的GLM-5-Turbo以93.9分的絕對優勢登頂榜首,字節跳動旗下的豆包模型Doubao-Seed-2.0-lite緊隨其后位列第二,同時憑借最低的使用成本成為最具性價比的模型。
小米科技成為本次榜單的最大黑馬,其自主研發的MiMo-V2系列兩款模型同時入圍前十。MiMo-V2-Omni憑借卓越的運行速度斬獲第九名,而功能更強大的MiMo-V2-Pro在復雜邏輯推理、長指令遵循等核心維度表現突出,在Model Rank專業排名中位居全球第五。該機構數據顯示,小米在實驗室綜合研發能力評估中同樣表現亮眼,在Text Arena(ArenaExpert)和Code Arena兩大權威榜單中分別位列全球第四和第五,綜合研發實力僅次于Anthropic、OpenAI和谷歌三家國際頂尖機構。
ClawBench采用的評測機制具有顯著創新性,其關聯的Text Arena榜單通過雙盲測試模式,在完全隱藏模型身份的前提下,由全球真實用戶根據實際使用體驗進行投票評選。這種評測方式有效規避了傳統榜單中針對特定數據集進行優化的"刷榜"行為,確保評測結果能夠真實反映模型在真實場景中的表現,為行業提供了更具參考價值的評估標準。





