SuperCLUE最新發(fā)布的2025年中文大模型基準(zhǔn)測(cè)評(píng)報(bào)告顯示,全球23個(gè)主流模型在數(shù)學(xué)推理、科學(xué)計(jì)算、代碼生成等六大關(guān)鍵領(lǐng)域展開激烈競(jìng)爭(zhēng)。測(cè)評(píng)結(jié)果呈現(xiàn)海外閉源模型持續(xù)領(lǐng)跑、國(guó)產(chǎn)模型加速突圍的雙重格局,其中部分細(xì)分領(lǐng)域已出現(xiàn)國(guó)產(chǎn)技術(shù)反超的顯著特征。
在整體排名中,Anthropic公司研發(fā)的Claude-Opus-4.5-Reasoning以68.25分摘得桂冠,谷歌Gemini-3-Pro-Preview與OpenAI GPT-5.2(high)分別以65.59分和64.32分位列二、三名。值得注意的是,國(guó)產(chǎn)模型在頭部陣營(yíng)中實(shí)現(xiàn)重要突破:開源模型Kimi-K2.5-Thinking以61.50分位居全球第四,閉源模型Qwen3-Max-Thinking以60.61分緊隨其后位列第六,標(biāo)志著國(guó)產(chǎn)技術(shù)正式躋身世界第一梯隊(duì)。
細(xì)分領(lǐng)域表現(xiàn)成為本次測(cè)評(píng)最大亮點(diǎn)。Kimi-K2.5-Thinking在代碼生成任務(wù)中以53.33分力壓群雄,展現(xiàn)出國(guó)產(chǎn)模型在工程化應(yīng)用方面的獨(dú)特優(yōu)勢(shì)。Qwen3-Max-Thinking則在數(shù)學(xué)推理領(lǐng)域與谷歌Gemini-3-Pro-Preview并列全球第一,雙方均獲得80.87分的滿分成績(jī),印證了國(guó)產(chǎn)模型在邏輯運(yùn)算能力上的質(zhì)的飛躍。科學(xué)計(jì)算、長(zhǎng)文本理解等維度也出現(xiàn)多個(gè)國(guó)產(chǎn)模型進(jìn)入前十的案例。
技術(shù)路線分化趨勢(shì)在測(cè)評(píng)數(shù)據(jù)中愈發(fā)明顯。閉源陣營(yíng)延續(xù)海外主導(dǎo)格局,前三名均被國(guó)際科技巨頭占據(jù),但國(guó)產(chǎn)閉源模型與頭部差距已從去年的15%縮小至8%以內(nèi)。開源領(lǐng)域則呈現(xiàn)完全相反的態(tài)勢(shì),國(guó)內(nèi)開源模型包攬前五名,且平均得分較海外開源模型高出27個(gè)百分點(diǎn),形成技術(shù)代差優(yōu)勢(shì)。這種"閉源追趕、開源領(lǐng)跑"的獨(dú)特現(xiàn)象,反映出中國(guó)AI產(chǎn)業(yè)在技術(shù)路線選擇上的戰(zhàn)略考量。
據(jù)測(cè)評(píng)報(bào)告分析,國(guó)產(chǎn)模型崛起得益于三大突破:一是算法架構(gòu)創(chuàng)新,通過(guò)動(dòng)態(tài)注意力機(jī)制等原創(chuàng)技術(shù)提升推理效率;二是數(shù)據(jù)治理優(yōu)化,構(gòu)建起覆蓋30個(gè)垂直領(lǐng)域的高質(zhì)量中文語(yǔ)料庫(kù);三是工程化能力提升,在模型輕量化部署方面取得關(guān)鍵進(jìn)展。這些技術(shù)積累使得國(guó)產(chǎn)模型在處理復(fù)雜中文語(yǔ)境、專業(yè)領(lǐng)域知識(shí)等場(chǎng)景中表現(xiàn)出獨(dú)特優(yōu)勢(shì)。









