SuperCLUE正式發(fā)布了“2025年度中文大模型基準(zhǔn)測評(píng)報(bào)告”,這場匯聚了23個(gè)國內(nèi)外頂尖模型的“全明星賽”,再次揭示了全球AI戰(zhàn)局的新動(dòng)向。測評(píng)覆蓋了數(shù)學(xué)推理、代碼生成及科學(xué)推理等六大核心維度,直觀展示了當(dāng)前中文語境下各大模型的真實(shí)“戰(zhàn)力”。
從綜合排名來看,海外閉源模型依然展現(xiàn)出強(qiáng)大的統(tǒng)治力。Anthropic旗下的Claude-Opus-4.5-Reasoning憑借68.25的高分問鼎榜首,谷歌的Gemini-3-Pro-Preview與OpenAI的GPT-5.2(high)緊隨其后,分別奪得亞軍和季軍。這三大巨頭構(gòu)成的“第一梯隊(duì)”,在邏輯嚴(yán)密性和綜合理解力上依然保持著微弱的領(lǐng)先優(yōu)勢(shì)。
然而,國產(chǎn)大模型的表現(xiàn)堪稱驚喜,正以前所未有的速度縮小差距。國內(nèi)開源界的“領(lǐng)頭羊”Kimi-K2.5-Thinking與閉源代表Qwen3-Max-Thinking分別殺入全球前十,位列第四和第六。值得振奮的是,在垂直賽道上,國產(chǎn)模型已經(jīng)實(shí)現(xiàn)了“局部反超”:Kimi在代碼生成任務(wù)中勇奪全球第一,而Qwen3則在數(shù)學(xué)推理上與谷歌并列世界冠軍。
縱觀整體格局,海內(nèi)外呈現(xiàn)出截然不同的競爭態(tài)勢(shì)。閉源領(lǐng)域目前是“海外領(lǐng)跑、國產(chǎn)追趕”;而在開源領(lǐng)域,國產(chǎn)模型則占據(jù)了絕對(duì)的主導(dǎo)地位,國內(nèi)開源Top5的實(shí)力已大幅領(lǐng)先海外同類模型。這種“開閉并進(jìn)”的局面,預(yù)示著中文AI生態(tài)正進(jìn)入一個(gè)高質(zhì)量發(fā)展的爆發(fā)期。
劃重點(diǎn):









