近日,國(guó)際權(quán)威評(píng)測(cè)機(jī)構(gòu)ClawBench公布了最新一期大型語(yǔ)言模型綜合排行榜,中國(guó)科技企業(yè)表現(xiàn)亮眼。北京智譜科技研發(fā)的GLM-5-Turbo以93.9分的絕對(duì)優(yōu)勢(shì)登頂全球榜首,字節(jié)跳動(dòng)旗下豆包模型Doubao-Seed-2.0-lite緊隨其后位居次席,小米公司更憑借MiMo-V2系列兩款模型實(shí)現(xiàn)雙榜突破,展現(xiàn)出中國(guó)AI研發(fā)團(tuán)隊(duì)的強(qiáng)勁實(shí)力。
本次評(píng)測(cè)中,字節(jié)跳動(dòng)的豆包模型不僅在性能指標(biāo)上斬獲全球第二,更以顯著優(yōu)勢(shì)成為全榜單中運(yùn)行成本最低的模型。小米公司則實(shí)現(xiàn)多點(diǎn)開(kāi)花,其MiMo-V2-Omni模型在運(yùn)行效率專(zhuān)項(xiàng)測(cè)試中表現(xiàn)突出,位列全球第九;更值得關(guān)注的是,該系列高端版本MiMo-V2-Pro在復(fù)雜邏輯推理、長(zhǎng)指令執(zhí)行穩(wěn)定性等核心指標(biāo)上達(dá)到國(guó)際領(lǐng)先水平,在Model Rank專(zhuān)業(yè)評(píng)測(cè)中躋身全球前五。
在反映企業(yè)綜合研發(fā)能力的LabRank實(shí)驗(yàn)室評(píng)測(cè)體系中,小米公司持續(xù)保持強(qiáng)勁勢(shì)頭。其Text Arena(ArenaExpert)文本生成能力評(píng)測(cè)位列全球第四,代碼生成專(zhuān)項(xiàng)Code Arena評(píng)測(cè)位居全球第五,整體技術(shù)實(shí)力已形成對(duì)Anthropic、OpenAI、谷歌等國(guó)際頂尖機(jī)構(gòu)的追趕態(tài)勢(shì)。據(jù)評(píng)測(cè)機(jī)構(gòu)介紹,Text Arena榜單采用全球首創(chuàng)的雙盲測(cè)試機(jī)制,通過(guò)隱藏模型身份信息、由真實(shí)用戶(hù)直接投票的方式,有效規(guī)避了傳統(tǒng)評(píng)測(cè)中常見(jiàn)的"數(shù)據(jù)集優(yōu)化"問(wèn)題,確保評(píng)測(cè)結(jié)果真實(shí)反映模型的實(shí)際應(yīng)用表現(xiàn)。
行業(yè)觀察人士指出,本次評(píng)測(cè)結(jié)果標(biāo)志著中國(guó)AI企業(yè)在基礎(chǔ)模型研發(fā)領(lǐng)域已實(shí)現(xiàn)從跟跑到并跑的跨越。特別是小米等硬件廠(chǎng)商的入局,正在推動(dòng)大模型技術(shù)從實(shí)驗(yàn)室走向真實(shí)應(yīng)用場(chǎng)景,這種"軟硬協(xié)同"的發(fā)展模式或?qū)⒅厮苋駻I產(chǎn)業(yè)競(jìng)爭(zhēng)格局。隨著ClawBench等第三方評(píng)測(cè)體系的不斷完善,技術(shù)實(shí)力的客觀比較將成為推動(dòng)行業(yè)健康發(fā)展的重要力量。














