在人工智能領域競爭愈發激烈的背景下,MiniMax公司于春節前夕正式推出新一代文本模型——MiniMax M2.5。這款被定位為"原生Agent生產級模型"的產品,在各大廠商圍繞"春節檔"展開密集發布時入場,為這場被業界稱為"AI諸神之戰"的競爭增添了新的變量。
在編程能力方面,M2.5展現出顯著優勢。權威測試顯示,該模型在SWE-Bench Verified榜單中取得80.2%的得分,Multi-SWE-Bench得分達51.3%,較前代產品實現大幅提升。特別是在多語言復雜環境測試中,其表現超越了Opus 4.6等國際主流模型。更值得關注的是,M2.5展現出獨特的"原生Spec能力",能夠在編碼前自主完成架構拆解與功能規劃,這種工作模式更接近人類架構師的實際操作流程。
工具調用與搜索能力是M2.5的另一大突破。在BrowseComp、Wide Search等Agent任務測試中,該模型以更低的交互輪次達成更優效果,較前代提升20%,達到行業頂尖水平。辦公場景測試同樣亮眼,在Word、PPT、Excel金融建模等高階應用中,GDPval-MM測評框架顯示其平均勝率達59.0%,顯著優于同類產品。
成本與效率的平衡是M2.5的核心競爭力。其輕量化版本M2.5-lightning支持每秒100次以上的輸出速度,是主流模型的兩倍。在價格方面,輸入成本約0.3美元/百萬Token,輸出成本約2.4美元/百萬Token。以每秒輸出100 Token計算,連續運行一小時成本僅約1美元;若按每秒50 Token計算,成本可降至0.3美元。這種性價比優勢使得理論上1萬美元即可支持4個Agent全年無休運行。
支撐M2.5快速迭代的,是MiniMax獨創的Agent強化學習體系。過去108天內,該模型從M2版本連續升級至M2.5,SWE-Bench Verified成績從69.4%躍升至80.2%。其自研的Forge框架通過解耦訓練引擎與Agent,實現對各類工具的泛化優化,配合異步調度與樹狀合并策略,使訓練效率提升約40倍。算法層面采用的CISPO優化與過程獎勵機制,有效解決了長上下文場景中的信用分配難題。
M2.5于2月12日在MiniMax Agent平臺正式上線,次日即實現全球開源并支持本地化部署。上線不到24小時,全球用戶已在該平臺創建超過1萬個專業Agent,且數量持續快速增長。公司表示,將在持續提升模型能力的同時,著力構建可擴展的Agent生態體系,推動AI技術從專業領域向日常辦公、創作娛樂等場景全面滲透。











