SuperCLUE最新發布的2025年度中文大模型基準測評報告引發科技界廣泛關注。本次測評覆蓋數學推理、科學推理、代碼生成等六大核心能力維度,吸引了23個國內外主流大模型同臺競技。測評結果顯示,海外閉源模型仍保持技術優勢,Anthropic推出的Claude-Opus-4.5-Reasoning以68.25分摘得桂冠,谷歌Gemini-3-Pro-Preview和OpenAI GPT-5.2(high)分別以65.59分和64.32分位列三甲。
國產大模型在此次測評中實現重大突破,展現出強勁的追趕勢頭。開源模型Kimi-K2.5-Thinking以61.50分躋身第四,閉源模型Qwen3-Max-Thinking則以60.61分獲得第六名。更值得關注的是,在細分領域測評中,國產模型表現尤為亮眼:Kimi-K2.5-Thinking在代碼生成任務中以53.33分力壓群雄,Qwen3-Max-Thinking在數學推理任務中與Gemini-3-Pro-Preview并列榜首,雙雙取得80.87分的優異成績。
從技術路線分布來看,國產開源模型展現出獨特競爭力。在綜合排名前五的模型中,國產開源模型占據三個席位,形成對海外模型的實質性挑戰。這種表現不僅體現在整體評分上,更在特定任務領域形成技術反超,標志著國產大模型正在突破傳統技術壁壘。
測評數據反映出的技術格局變化引人深思。雖然海外閉源模型在綜合評分上仍保持領先,但國產模型在特定任務領域的突破性表現,顯示出技術路線的差異化發展路徑。這種變化既體現在開源模型的技術積累,也反映在閉源模型的應用創新,預示著中文大模型領域即將進入多極化競爭的新階段。








