春節期間,中國人工智能領域迎來一場激烈的技術競賽,多家頭部企業接連發布大模型新版本,引發全球關注。其中,MiniMax公司推出的M2.5模型憑借編程與智能體能力成為焦點,其SWE-Bench Verified得分達80.2%,Multi-SWE-Bench以51.3%的成績登頂全球榜單,性能直追國際頂尖模型Claude Opus 4.6,而價格僅為后者的二十分之一。這一突破標志著國產大模型在工程化落地方面邁出關鍵一步。
技術社區的快速響應印證了M2.5的影響力。開源項目OpenClaw在模型發布后立即將其列為推薦模型,開發者通過OAuth插件即可在Telegram、WhatsApp等平臺部署AI助手,每小時成本低至1美元。這種技術生態的聯動效應,使得M2.5在Hugging Face開源后迅速積累大量衍生應用,從自動化辦公到智能客服,場景覆蓋持續擴大。
資本市場的反應同樣熱烈。MiniMax上市僅39天,股價從發行價165港元飆升至847港元,累計漲幅超過413%,市值突破2656億港元。這種市場表現背后,是公司每45天迭代一個主要版本的技術速度——從2025年10月的M2到2026年2月的M2.5,三個版本更新周期較預期縮短近三分之一。
在技術實現層面,M2.5的突破源于對強化學習規模化應用的深度探索。研究團隊通過自研RL框架Forge,在算法優化、獎勵信號設計和基礎設施工程等方面取得進展。一個典型案例是FP32精度問題的解決:在M1時期,團隊發現語言模型頭因數值精度不足導致訓練偏差,切換至32位浮點數后性能顯著提升。這種從理論算法到工程實現的極致優化,成為MiniMax技術演進的核心方法論。
智能體對齊(Agent Alignment)是M2系列研發的另一重點。研究團隊構建了包含敏感性安全和對齊安全的多維度評估體系,通過與開發者混合辦公的模式,實時修正模型行為。高級研究員Olive Song透露,發布前兩周會進行大規模壓力測試,但開放權重后用戶行為仍存在不可控因素,"這需要法律、倫理與技術的協同應對"。
編碼能力的強化并非技術路徑的偏移,而是通向通用智能的階梯。Olive Song解釋稱,編程本質是結構化世界的工程語言,M2.5在報告寫作、PPT生成等通用任務上已展現潛力。未來版本將重點突破長程任務處理,通過定義復雜目標、構建多樣化環境、優化RL基礎設施三層架構,提升模型在多步驟規劃中的穩定性。
開源戰略的選擇折射出技術哲學的差異。盡管商業層面存在API收入減少的顧慮,但研究團隊堅信社區協作能加速技術進化。MiniMax與vLLM、SGLang等推理框架的深度合作,以及基于M2.5涌現的自動化辦公應用,驗證了這種開放生態的商業價值。實測數據顯示,三個M2.5 Agent協同工作的成本僅為閉源模型的5%。
在模型評估體系構建上,研究團隊保持著異常嚴謹的態度。Olive Song指出,專業評估需要足夠數量的測試題和多次驗證,當前行業普遍采用的"五個問題測試法"遠未達到統計置信度要求。她個人維護著涵蓋邏輯推理、數學證明等領域的測試集,用于持續追蹤模型進化軌跡。
面對AGI(通用人工智能)的終極命題,Olive Song的回答體現出工程思維特質:"定義會在實現過程中自然清晰,現在更重要的是讓模型具備持續探索環境、定義自身目標的能力。"這種務實態度貫穿于MiniMax的技術實踐——從用Agent追蹤學術動態的內部工具,到通過系統提示詞實現角色切換的模型設計,都在為更復雜的智能形態鋪路。
當被問及研究工作的本質變化時,Olive Song提到兩個關鍵轉折:從跟隨論文到解決前人未遇的問題,從實驗室玩具級實驗到應對千萬級參數的工程挑戰。這種認知轉變,或許正是中國AI企業在全球競賽中實現后來居上的深層密碼。











